LLM 评测基准对比

LLM 评测是模型开发和选型的核心依据，但不同基准各有侧重和局限。从学术基准到真实世界评估，从自动评分到人类偏好，评测方法正在快速演进。本页对比当前主流评测基准的特点与适用场景。

对比概览

基准	评测维度	题型	自动评分	防污染难度	可信度	代表模型分数
MMLU	知识广度	选择题	✅	中	★★★★☆	GPT-4o: 87.2%, Claude 3.5: 88.7%
HumanEval	代码生成	编程题	✅	高	★★★★☆	GPT-4o: 90.2%, Claude 3.5: 92.0%
GSM8K	数学推理	应用题	✅	中	★★★★☆	GPT-4o: 95.8%, o1: 97.6%
MATH	高等数学	竞赛题	✅	中	★★★★★	o3: 96.7%, GPT-4o: 76.6%
SWE-bench	软件工程	真实 Bug	✅ (测试)	极高	★★★★★	Claude 4: 58.9%, GPT-4o: 43.4%
MTEB	文本嵌入	多任务	✅	低	★★★★☆	E5-Mistral: 66.4%
Arena ELO	人类偏好	开放问答	❌ (人类投票)	高	★★★★★	GPT-4o: ~1300, Claude 3.5: ~1280
MT-Bench	多轮对话	开放问答	✅ (GPT-4 评判)	中	★★★☆☆	GPT-4o: 9.32, Claude 3.5: 9.18
BBH	复杂推理	多步骤	✅	中	★★★★☆	GPT-4o: 86.0%, o1: 95.0%
LiveCodeBench	实时编程	竞赛题	✅	高	★★★★☆	Claude 4: 78.1%, GPT-4o: 68.3%

知识类基准

MMLU — 最广泛的知识测试

MMLU（Massive Multitask Language Understanding）覆盖 57 个学科：

范围：数学、历史、计算机科学、法律、医学等
形式：多项选择题，每个学科 100+ 题
局限：
- 纯知识记忆 vs 推理能力的区分度有限
- 训练数据污染问题（模型可能在训练时见过题目）
- 选择题形式限制了真实能力评估
适用：快速评估模型知识广度

MMLU-Pro / MMLU-Redux

MMLU 的改进版本：

MMLU-Pro：增加干扰项难度，减少猜测概率
MMLU-Redux：人工重新标注，提高质量
趋势：社区正在从 MMLU 向更难的变体迁移

推理类基准

GSM8K — 小学数学推理

GSM8K（Grade School Math 8K）测试基础数学推理：

特点：需要 2-8 步推理的应用题
优势：问题清晰，答案明确
局限：难度有限，前沿模型已接近饱和（>95%）
适用：评估基础推理能力

MATH — 竞赛级数学

MATH 数据集包含竞赛级数学问题：

难度：AMC 10/12、AIME 级别
形式：需要复杂推导的开放性问题
现状：o3 达到 96.7%，但多数模型仍在 60-80%
适用：区分顶级推理模型

代码类基准

HumanEval — 函数级代码生成

HumanEval 测试基础编程能力：

形式：164 道 Python 函数题，手写测试用例
评估：pass@k（k 次尝试中至少通过一次的概率）
局限：
- 仅 Python
- 函数级别，不涉及代码库理解
- 污染严重（大量模型在训练时见过）
适用：快速评估代码生成基础能力

SWE-bench — 真实软件工程

SWE-bench 是当前最重要的代码基准：

形式：真实 GitHub issue → 定位 bug → 编写修复 → 通过测试
难度：需要理解代码库、多文件导航、测试驱动
版本：
- SWE-bench Lite：简化版，适合快速评估
- SWE-bench Verified：人工验证的高质量子集
适用：评估真实软件工程能力

LiveCodeBench — 防污染编程

LiveCodeBench 解决数据污染问题：

特点：从编程竞赛网站实时收集新题
优势：模型不可能在训练时见过
局限：题目类型有限（算法竞赛风格）
适用：公平比较代码能力

嵌入类基准

MTEB — 文本嵌入综合评测

MTEB（Massive Text Embedding Benchmark）覆盖 8 个任务：

任务	说明	代表数据集
Classification	文本分类	Amazon Reviews
Clustering	文本聚类	ArXiv, Reddit
PairClassification	句子对匹配	SICK-R
Reranking	重排序	MSMARCO
Retrieval	信息检索	NQ, HotpotQA
STS	语义相似度	STS12-16
Summarization	摘要	SummEval

局限：英文为主，多语言覆盖有限
趋势：MMTEB（多语言版）正在发展

人类偏好基准

Chatbot Arena (LMSYS)

Chatbot Arena 是当前最受信任的人类评估平台：

机制：盲测对比，人类投票选择更好的回答
评分：ELO 等级分系统
优势：
- 真实人类偏好
- 开放域，覆盖各种场景
- 难以被"刷分"
局限：
- 主观性强
- 样本偏差（主要英语用户）
- 无法区分特定能力

MT-Bench

MT-Bench 使用 GPT-4 作为评判：

形式：多轮对话，GPT-4 评分 1-10
优势：成本低、可扩展、一致性好
局限：
- 评判模型本身的偏见
- 对超越评判模型的能力无法评估
- 风格偏好 vs 实质能力

基准的局限性与挑战

数据污染

问题：模型在预训练时可能见过基准数据
影响：分数虚高，无法反映真实能力
缓解：
- 动态基准（LiveCodeBench、Chatbot Arena）
- 时间切分（只用训练截止日期后的数据）
- 人工验证

能力窄化

问题：基准只能测量特定能力
例子：MMLU 高分 ≠ 实际有用
趋势：综合评估框架（如 HELM）

过拟合基准

问题：模型针对特定基准优化
例子：在 HumanEval 上训练
影响：基准分数与实际表现脱节

评测策略建议

目标	推荐基准组合
通用能力	MMLU-Pro + BBH + Arena ELO
推理能力	MATH + GSM8K + 自定义推理题
代码能力	SWE-bench + LiveCodeBench
嵌入质量	MTEB + 领域特定测试
人类偏好	Chatbot Arena + 内部 A/B 测试
安全对齐	红队测试 + 安全基准套件

新兴评测方向

长上下文评估

Needle in a Haystack：在长篇文档中定位特定信息
RULER：多维度长上下文测试
趋势：128K+ 上下文成为标配

Agent 评估

WebArena：在真实网站上完成任务
OSWorld：操作系统级交互
SWE-bench Agent：端到端软件工程

多模态评估

MMMU：大学级多模态问题
MMBench：综合视觉理解
趋势：从单模态向多模态迁移

参考来源

Hendrycks et al. (2021). "Measuring Massive Multitask Language Understanding." (MMLU)
Chen et al. (2021). "Evaluating Large Language Models Trained on Code." (HumanEval)
Cobbe et al. (2021). "Training Verifiers to Solve Math Word Problems." (GSM8K)
Jimenez et al. (2024). "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?"
Muennighoff et al. (2023). "MTEB: Massive Text Embedding Benchmark."
Zheng et al. (2023). "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena."
Liang et al. (2023). "Holistic Evaluation of Language Models." (HELM)
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

LLM 评测基准对比 ​

对比概览 ​

知识类基准 ​

MMLU — 最广泛的知识测试 ​

MMLU-Pro / MMLU-Redux ​

推理类基准 ​

GSM8K — 小学数学推理 ​

MATH — 竞赛级数学 ​

代码类基准 ​

HumanEval — 函数级代码生成 ​

SWE-bench — 真实软件工程 ​

LiveCodeBench — 防污染编程 ​

嵌入类基准 ​

MTEB — 文本嵌入综合评测 ​

人类偏好基准 ​

Chatbot Arena (LMSYS) ​

MT-Bench ​

基准的局限性与挑战 ​

数据污染 ​

能力窄化 ​

过拟合基准 ​

评测策略建议 ​

新兴评测方向 ​

长上下文评估 ​

Agent 评估 ​

多模态评估 ​

相关页面 ​

参考来源 ​