Skip to content

LLM Evaluation

LLM 评估(Evaluation)是衡量模型能力、发现模型弱点和驱动模型改进的系统性方法。从 MMLU 到 HumanEval、从基准测试到人类偏好评估,评估体系决定了"什么模型更好"的判断标准。EleutherAI 的 LM Evaluation Harness 是该领域最核心的开源工具。

Key Papers: Evaluation Benchmarks

基准年份机构测试内容指标
MMLU (Massive Multitask Language Understanding)2020UC Berkeley57 学科的多选题知识测试Accuracy (0-shot / 5-shot)
HumanEval2021OpenAI164 道 Python 编程题,从 docstring 到函数实现pass@k
GSM8K (Grade School Math 8K)2021OpenAI8.5K 小学数学应用题Accuracy (few-shot / CoT)
MATH2021OpenAI12.5K 高中数学竞赛题(5 个难度等级)Accuracy
HellaSwag2019UW / Allen AI对抗性筛选的常识推理选择题Accuracy
TruthfulQA2021OpenAI人类常见误解相关的 QA,测试真实性Accuracy (True*Info)
GPQA (Graduate-Level Q&A)2023NYU / Cohere博士级别科学推理(生物/物理/化学)Accuracy
BIG-bench2022Google / 多家机构204 项多样化任务,覆盖推理、数学、代码、社会偏见等多种指标
ARC (AI2 Reasoning Challenge)2018Allen AI小学科学考试(Easy / Challenge)Accuracy

LM Evaluation Harness

Overview

LM Evaluation Harness 是 EleutherAI 维护的标准化评估框架,目前是开源社区评估语言模型的事实标准工具。它被 Meta(Llama)、Mistral、Google(Gemma)、Stability AI 等主流模型发布方用于官方 benchmark 报告。

  • GitHub: github.com/EleutherAI/lm-evaluation-harness
  • 许可: MIT
  • 语言: Python
  • 最新版本: v0.4.6(2026 年初)

Architecture

Evaluation Flow:

1. 模型加载(Model Wrappers)
   ├─ Hugging Face Transformers(自动下载权重)
   ├─ vLLM(高吞吐推理)
   ├─ TensorFlow / JAX
   └─ API Backend(OpenAI / Anthropic / Google API)

2. 任务定义(Task Registry / YAML)
   ├─ 数据集来源(Hugging Face Datasets / 本地)
   ├─ Few-shot 示例(来自训练集)
   ├─ 评测指标(acc / perplexity / f1 / exact_match / pass@k)
   └─ 提示模板和输出解析

3. 评估运行(Evaluation Runner)
   ├─ 分类任务:比较模型对答案 token 的 log-probability
   ├─ 生成任务:生成文本并计算指标
   └─ 结果汇总(按任务 / 按类别)

4. 输出
   ├─ 控制台打印
   ├─ JSON / CSV 导出
   └─ Weights & Biases 集成

Supported Benchmarks(部分)

类别基准测试
通用知识/推理MMLU(含所有子任务和 Pro)、ARC(Easy/Challenge)、HellaSwag、WinoGrande、PIQA
数学GSM8K、MATH、SVAMP、ASDiv
代码HumanEval、MBPP
阅读理解RACE、BoolQ、SQuAD、TriviaQA、Natural Questions
多语言XNLI、TyDi QA、MLMMLU、PAWS-X
真实性与安全TruthfulQA、BBQ、ToxiGen、HHH
其他LAMBADA、COPA、StoryCloze、BLiMP、CLUE

Key Features

  • 零样本 / 少样本评估:可配置 shot 数量
  • 多种模型后端:HF Transformers、vLLM、TensorFlow、API 模型
  • 批量推理:GPU 批处理加速
  • 并行执行:多任务并行
  • 可扩展性:通过 YAML 文件即可添加新任务
  • 聊天模板支持:支持指令微调模型的对话式评估
  • 结果日志:WandB、MLflow、JSON、CSV

Evaluation Methodology Categories

方法原理典型指标适用场景
Log-probability (Per-token)对比模型对答案选项的 log-probAccuracyMMLU、ARC、HellaSwag 等选择题基准
Generation (Free-form)模型自由生成,再匹配标准答案Exact Match、F1、ROUGEGSM8K、TriviaQA、SQuAD
Pass@k生成 k 个候选,至少一个通过测试pass@1, pass@kHumanEval、MBPP(编程)
Pairwise Comparison (Elo)人类/模型对两个输出做偏好判断Elo ScoreChatbot Arena、MT-Bench
LLM-as-Judge用强模型(如 GPT-4)评估弱模型输出1-10 分AlpacaEval、MT-Bench
Human Evaluation人工评分Likert Scale、Preference Rate真实场景质量评估

Evaluation Pitfalls

问题表现缓解
Benchmark Contamination模型训练数据包含测试集使用后训练的基准(如 MMLU Pro、后 2024 数据集)
Prompt Sensitivity小提示词变化导致大幅分数波动报告多组提示词的平均值
Few-shot LeakageK-shot 示例无意中泄露答案格式确保示例与测试集分离
Metric Gaming模型针对基准做针对性优化而非真能力提升使用多样化基准组合
LLM-as-Judge BiasGPT-4 偏向自己的输出风格使用多个评判模型、盲评
Evaluation Reproducibility不同框架/随机种子下结果不一致标准化到 LM Evaluation Harness

Why It Matters

  • 没有评估就没有进步——评估体系定义了"更好"的标准,直接驱动了模型研发方向
  • LM Evaluation Harness 提供了标准化、可复现的评估环境,使不同模型的跨论文比较成为可能
  • 理解评估方法论有助于识别 benchmark 的局限性和过拟合风险
  • Transformer ArchitectureScaling LawsFine-tuning 共同构成理解 LLM 研发的完整框架
  • 评估能力也直接关联到 AI Agents 的评测——Agent 任务(如函数调用、多步推理)的评估仍是一个开放问题

Open Questions

  • Agent 场景的系统化评估(多步推理、工具调用、鲁棒性)何时有统一标准?
  • Benchmark 饱和(MMLU 接近天花板)后,下一代评估体系是什么?
  • 如何在保护测试集隐私的前提下,实现社区级的反 contamination 协作?
  • LLM-as-Judge 的可靠性能否达到人类评估的水平?

Sources

  • EleutherAI LM Evaluation Harness (github.com/EleutherAI/lm-evaluation-harness)
  • MMLU: Measuring Massive Multitask Language Understanding (Hendrycks et al., 2020)
  • HumanEval: Evaluating Large Language Models Trained on Code (Chen et al., 2021)
  • GSM8K: Training Verifiers to Solve Math Word Problems (Cobbe et al., 2021)
  • Official Documentation: eleutherai.github.io/lm-evaluation-harness

AI Knowledge Base — 持续积累