Skip to content

LLM Evaluation

LLM 评估(Evaluation)是衡量模型能力、发现模型弱点和驱动模型改进的系统性方法。从 MMLU 到 HumanEval、从基准测试到人类偏好评估,评估体系决定了"什么模型更好"的判断标准。EleutherAI 的 LM Evaluation Harness 是该领域最核心的开源工具。

Key Papers: Evaluation Benchmarks

基准年份机构测试内容指标
MMLU (Massive Multitask Language Understanding)2020UC Berkeley57 学科的多选题知识测试Accuracy (0-shot / 5-shot)
HumanEval2021OpenAI164 道 Python 编程题,从 docstring 到函数实现pass@k
GSM8K (Grade School Math 8K)2021OpenAI8.5K 小学数学应用题Accuracy (few-shot / CoT)
MATH2021OpenAI12.5K 高中数学竞赛题(5 个难度等级)Accuracy
HellaSwag2019UW / Allen AI对抗性筛选的常识推理选择题Accuracy
TruthfulQA2021OpenAI人类常见误解相关的 QA,测试真实性Accuracy (True*Info)
GPQA (Graduate-Level Q&A)2023NYU / Cohere博士级别科学推理(生物/物理/化学)Accuracy
BIG-bench2022Google / 多家机构204 项多样化任务,覆盖推理、数学、代码、社会偏见等多种指标
ARC (AI2 Reasoning Challenge)2018Allen AI小学科学考试(Easy / Challenge)Accuracy

LM Evaluation Harness

Overview

LM Evaluation Harness 是 EleutherAI 维护的标准化评估框架,目前是开源社区评估语言模型的事实标准工具。它被 Meta(Llama)、Mistral、Google(Gemma)、Stability AI 等主流模型发布方用于官方 benchmark 报告。

  • GitHub: github.com/EleutherAI/lm-evaluation-harness
  • 许可: MIT
  • 语言: Python
  • 最新版本: v0.4.6(2026 年初)

Architecture

Supported Benchmarks(部分)

类别基准测试
通用知识/推理MMLU(含所有子任务和 Pro)、ARC(Easy/Challenge)、HellaSwag、WinoGrande、PIQA
数学GSM8K、MATH、SVAMP、ASDiv
代码HumanEval、MBPP
阅读理解RACE、BoolQ、SQuAD、TriviaQA、Natural Questions
多语言XNLI、TyDi QA、MLMMLU、PAWS-X
真实性与安全TruthfulQA、BBQ、ToxiGen、HHH
其他LAMBADA、COPA、StoryCloze、BLiMP、CLUE

Key Features

  • 零样本 / 少样本评估:可配置 shot 数量
  • 多种模型后端:HF Transformers、vLLM、TensorFlow、API 模型
  • 批量推理:GPU 批处理加速
  • 并行执行:多任务并行
  • 可扩展性:通过 YAML 文件即可添加新任务
  • 聊天模板支持:支持指令微调模型的对话式评估
  • 结果日志:WandB、MLflow、JSON、CSV

Evaluation Methodology Categories

方法原理典型指标适用场景
Log-probability (Per-token)对比模型对答案选项的 log-probAccuracyMMLU、ARC、HellaSwag 等选择题基准
Generation (Free-form)模型自由生成,再匹配标准答案Exact Match、F1、ROUGEGSM8K、TriviaQA、SQuAD
Pass@k生成 k 个候选,至少一个通过测试pass@1, pass@kHumanEval、MBPP(编程)
Pairwise Comparison (Elo)人类/模型对两个输出做偏好判断Elo ScoreChatbot Arena、MT-Bench
LLM-as-Judge用强模型(如 GPT-4)评估弱模型输出1-10 分AlpacaEval、MT-Bench
Human Evaluation人工评分Likert Scale、Preference Rate真实场景质量评估

Evaluation Pitfalls

问题表现缓解
Benchmark Contamination模型训练数据包含测试集使用后训练的基准(如 MMLU Pro、后 2024 数据集)
Prompt Sensitivity小提示词变化导致大幅分数波动报告多组提示词的平均值
Few-shot LeakageK-shot 示例无意中泄露答案格式确保示例与测试集分离
Metric Gaming模型针对基准做针对性优化而非真能力提升使用多样化基准组合
LLM-as-Judge BiasGPT-4 偏向自己的输出风格使用多个评判模型、盲评
Evaluation Reproducibility不同框架/随机种子下结果不一致标准化到 LM Evaluation Harness

Why It Matters

  • 没有评估就没有进步——评估体系定义了"更好"的标准,直接驱动了模型研发方向
  • LM Evaluation Harness 提供了标准化、可复现的评估环境,使不同模型的跨论文比较成为可能
  • 理解评估方法论有助于识别 benchmark 的局限性和过拟合风险
  • Transformer ArchitectureScaling LawsFine-tuning 共同构成理解 LLM 研发的完整框架
  • 评估能力也直接关联到 AI Agents 的评测——Agent 任务(如函数调用、多步推理)的评估仍是一个开放问题

Open Questions

  • Agent 场景的系统化评估(多步推理、工具调用、鲁棒性)何时有统一标准?
  • Benchmark 饱和(MMLU 接近天花板)后,下一代评估体系是什么?
  • 如何在保护测试集隐私的前提下,实现社区级的反 contamination 协作?
  • LLM-as-Judge 的可靠性能否达到人类评估的水平?

Sources

  • EleutherAI LM Evaluation Harness (github.com/EleutherAI/lm-evaluation-harness)

  • MMLU: Measuring Massive Multitask Language Understanding (Hendrycks et al., 2020)

  • HumanEval: Evaluating Large Language Models Trained on Code (Chen et al., 2021)

  • GSM8K: Training Verifiers to Solve Math Word Problems (Cobbe et al., 2021)

  • Official Documentation: eleutherai.github.io/lm-evaluation-harness

  • Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

AI Knowledge Base — 持续积累