Appearance
LLM 评测基准对比
LLM 评测是模型开发和选型的核心依据,但不同基准各有侧重和局限。从学术基准到真实世界评估,从自动评分到人类偏好,评测方法正在快速演进。本页对比当前主流评测基准的特点与适用场景。
对比概览
| 基准 | 评测维度 | 题型 | 自动评分 | 防污染难度 | 可信度 | 代表模型分数 |
|---|---|---|---|---|---|---|
| MMLU | 知识广度 | 选择题 | ✅ | 中 | ★★★★☆ | GPT-4o: 87.2%, Claude 3.5: 88.7% |
| HumanEval | 代码生成 | 编程题 | ✅ | 高 | ★★★★☆ | GPT-4o: 90.2%, Claude 3.5: 92.0% |
| GSM8K | 数学推理 | 应用题 | ✅ | 中 | ★★★★☆ | GPT-4o: 95.8%, o1: 97.6% |
| MATH | 高等数学 | 竞赛题 | ✅ | 中 | ★★★★★ | o3: 96.7%, GPT-4o: 76.6% |
| SWE-bench | 软件工程 | 真实 Bug | ✅ (测试) | 极高 | ★★★★★ | Claude 4: 58.9%, GPT-4o: 43.4% |
| MTEB | 文本嵌入 | 多任务 | ✅ | 低 | ★★★★☆ | E5-Mistral: 66.4% |
| Arena ELO | 人类偏好 | 开放问答 | ❌ (人类投票) | 高 | ★★★★★ | GPT-4o: ~1300, Claude 3.5: ~1280 |
| MT-Bench | 多轮对话 | 开放问答 | ✅ (GPT-4 评判) | 中 | ★★★☆☆ | GPT-4o: 9.32, Claude 3.5: 9.18 |
| BBH | 复杂推理 | 多步骤 | ✅ | 中 | ★★★★☆ | GPT-4o: 86.0%, o1: 95.0% |
| LiveCodeBench | 实时编程 | 竞赛题 | ✅ | 高 | ★★★★☆ | Claude 4: 78.1%, GPT-4o: 68.3% |
知识类基准
MMLU — 最广泛的知识测试
MMLU(Massive Multitask Language Understanding)覆盖 57 个学科:
- 范围:数学、历史、计算机科学、法律、医学等
- 形式:多项选择题,每个学科 100+ 题
- 局限:
- 纯知识记忆 vs 推理能力的区分度有限
- 训练数据污染问题(模型可能在训练时见过题目)
- 选择题形式限制了真实能力评估
- 适用:快速评估模型知识广度
MMLU-Pro / MMLU-Redux
MMLU 的改进版本:
- MMLU-Pro:增加干扰项难度,减少猜测概率
- MMLU-Redux:人工重新标注,提高质量
- 趋势:社区正在从 MMLU 向更难的变体迁移
推理类基准
GSM8K — 小学数学推理
GSM8K(Grade School Math 8K)测试基础数学推理:
- 特点:需要 2-8 步推理的应用题
- 优势:问题清晰,答案明确
- 局限:难度有限,前沿模型已接近饱和(>95%)
- 适用:评估基础推理能力
MATH — 竞赛级数学
MATH 数据集包含竞赛级数学问题:
- 难度:AMC 10/12、AIME 级别
- 形式:需要复杂推导的开放性问题
- 现状:o3 达到 96.7%,但多数模型仍在 60-80%
- 适用:区分顶级推理模型
代码类基准
HumanEval — 函数级代码生成
HumanEval 测试基础编程能力:
- 形式:164 道 Python 函数题,手写测试用例
- 评估:pass@k(k 次尝试中至少通过一次的概率)
- 局限:
- 仅 Python
- 函数级别,不涉及代码库理解
- 污染严重(大量模型在训练时见过)
- 适用:快速评估代码生成基础能力
SWE-bench — 真实软件工程
SWE-bench 是当前最重要的代码基准:
- 形式:真实 GitHub issue → 定位 bug → 编写修复 → 通过测试
- 难度:需要理解代码库、多文件导航、测试驱动
- 版本:
- SWE-bench Lite:简化版,适合快速评估
- SWE-bench Verified:人工验证的高质量子集
- 适用:评估真实软件工程能力
LiveCodeBench — 防污染编程
LiveCodeBench 解决数据污染问题:
- 特点:从编程竞赛网站实时收集新题
- 优势:模型不可能在训练时见过
- 局限:题目类型有限(算法竞赛风格)
- 适用:公平比较代码能力
嵌入类基准
MTEB — 文本嵌入综合评测
MTEB(Massive Text Embedding Benchmark)覆盖 8 个任务:
| 任务 | 说明 | 代表数据集 |
|---|---|---|
| Classification | 文本分类 | Amazon Reviews |
| Clustering | 文本聚类 | ArXiv, Reddit |
| PairClassification | 句子对匹配 | SICK-R |
| Reranking | 重排序 | MSMARCO |
| Retrieval | 信息检索 | NQ, HotpotQA |
| STS | 语义相似度 | STS12-16 |
| Summarization | 摘要 | SummEval |
- 局限:英文为主,多语言覆盖有限
- 趋势:MMTEB(多语言版)正在发展
人类偏好基准
Chatbot Arena (LMSYS)
Chatbot Arena 是当前最受信任的人类评估平台:
- 机制:盲测对比,人类投票选择更好的回答
- 评分:ELO 等级分系统
- 优势:
- 真实人类偏好
- 开放域,覆盖各种场景
- 难以被"刷分"
- 局限:
- 主观性强
- 样本偏差(主要英语用户)
- 无法区分特定能力
MT-Bench
MT-Bench 使用 GPT-4 作为评判:
- 形式:多轮对话,GPT-4 评分 1-10
- 优势:成本低、可扩展、一致性好
- 局限:
- 评判模型本身的偏见
- 对超越评判模型的能力无法评估
- 风格偏好 vs 实质能力
基准的局限性与挑战
数据污染
- 问题:模型在预训练时可能见过基准数据
- 影响:分数虚高,无法反映真实能力
- 缓解:
- 动态基准(LiveCodeBench、Chatbot Arena)
- 时间切分(只用训练截止日期后的数据)
- 人工验证
能力窄化
- 问题:基准只能测量特定能力
- 例子:MMLU 高分 ≠ 实际有用
- 趋势:综合评估框架(如 HELM)
过拟合基准
- 问题:模型针对特定基准优化
- 例子:在 HumanEval 上训练
- 影响:基准分数与实际表现脱节
评测策略建议
| 目标 | 推荐基准组合 |
|---|---|
| 通用能力 | MMLU-Pro + BBH + Arena ELO |
| 推理能力 | MATH + GSM8K + 自定义推理题 |
| 代码能力 | SWE-bench + LiveCodeBench |
| 嵌入质量 | MTEB + 领域特定测试 |
| 人类偏好 | Chatbot Arena + 内部 A/B 测试 |
| 安全对齐 | 红队测试 + 安全基准套件 |
新兴评测方向
长上下文评估
- Needle in a Haystack:在长篇文档中定位特定信息
- RULER:多维度长上下文测试
- 趋势:128K+ 上下文成为标配
Agent 评估
- WebArena:在真实网站上完成任务
- OSWorld:操作系统级交互
- SWE-bench Agent:端到端软件工程
多模态评估
- MMMU:大学级多模态问题
- MMBench:综合视觉理解
- 趋势:从单模态向多模态迁移
相关页面
- LLM Evaluation — LLM 评测体系与方法论
- Harness Engineering — 评测工程化方法
- 编程专用模型对比 — 编程模型对比(含 SWE-bench)
- Embedding 模型对比 — Embedding 模型对比(含 MTEB)
- DeepSeek-R1 vs o3 vs Claude Thinking — 推理模型对比
参考来源
Hendrycks et al. (2021). "Measuring Massive Multitask Language Understanding." (MMLU)
Chen et al. (2021). "Evaluating Large Language Models Trained on Code." (HumanEval)
Cobbe et al. (2021). "Training Verifiers to Solve Math Word Problems." (GSM8K)
Jimenez et al. (2024). "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?"
Muennighoff et al. (2023). "MTEB: Massive Text Embedding Benchmark."
Zheng et al. (2023). "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena."
Liang et al. (2023). "Holistic Evaluation of Language Models." (HELM)
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程