Skip to content

LLM 评测基准对比

LLM 评测是模型开发和选型的核心依据,但不同基准各有侧重和局限。从学术基准到真实世界评估,从自动评分到人类偏好,评测方法正在快速演进。本页对比当前主流评测基准的特点与适用场景。

对比概览

基准评测维度题型自动评分防污染难度可信度代表模型分数
MMLU知识广度选择题★★★★☆GPT-4o: 87.2%, Claude 3.5: 88.7%
HumanEval代码生成编程题★★★★☆GPT-4o: 90.2%, Claude 3.5: 92.0%
GSM8K数学推理应用题★★★★☆GPT-4o: 95.8%, o1: 97.6%
MATH高等数学竞赛题★★★★★o3: 96.7%, GPT-4o: 76.6%
SWE-bench软件工程真实 Bug✅ (测试)极高★★★★★Claude 4: 58.9%, GPT-4o: 43.4%
MTEB文本嵌入多任务★★★★☆E5-Mistral: 66.4%
Arena ELO人类偏好开放问答❌ (人类投票)★★★★★GPT-4o: ~1300, Claude 3.5: ~1280
MT-Bench多轮对话开放问答✅ (GPT-4 评判)★★★☆☆GPT-4o: 9.32, Claude 3.5: 9.18
BBH复杂推理多步骤★★★★☆GPT-4o: 86.0%, o1: 95.0%
LiveCodeBench实时编程竞赛题★★★★☆Claude 4: 78.1%, GPT-4o: 68.3%

知识类基准

MMLU — 最广泛的知识测试

MMLU(Massive Multitask Language Understanding)覆盖 57 个学科:

  • 范围:数学、历史、计算机科学、法律、医学等
  • 形式:多项选择题,每个学科 100+ 题
  • 局限
    • 纯知识记忆 vs 推理能力的区分度有限
    • 训练数据污染问题(模型可能在训练时见过题目)
    • 选择题形式限制了真实能力评估
  • 适用:快速评估模型知识广度

MMLU-Pro / MMLU-Redux

MMLU 的改进版本:

  • MMLU-Pro:增加干扰项难度,减少猜测概率
  • MMLU-Redux:人工重新标注,提高质量
  • 趋势:社区正在从 MMLU 向更难的变体迁移

推理类基准

GSM8K — 小学数学推理

GSM8K(Grade School Math 8K)测试基础数学推理:

  • 特点:需要 2-8 步推理的应用题
  • 优势:问题清晰,答案明确
  • 局限:难度有限,前沿模型已接近饱和(>95%)
  • 适用:评估基础推理能力

MATH — 竞赛级数学

MATH 数据集包含竞赛级数学问题:

  • 难度:AMC 10/12、AIME 级别
  • 形式:需要复杂推导的开放性问题
  • 现状:o3 达到 96.7%,但多数模型仍在 60-80%
  • 适用:区分顶级推理模型

代码类基准

HumanEval — 函数级代码生成

HumanEval 测试基础编程能力:

  • 形式:164 道 Python 函数题,手写测试用例
  • 评估:pass@k(k 次尝试中至少通过一次的概率)
  • 局限
    • 仅 Python
    • 函数级别,不涉及代码库理解
    • 污染严重(大量模型在训练时见过)
  • 适用:快速评估代码生成基础能力

SWE-bench — 真实软件工程

SWE-bench 是当前最重要的代码基准:

  • 形式:真实 GitHub issue → 定位 bug → 编写修复 → 通过测试
  • 难度:需要理解代码库、多文件导航、测试驱动
  • 版本
    • SWE-bench Lite:简化版,适合快速评估
    • SWE-bench Verified:人工验证的高质量子集
  • 适用:评估真实软件工程能力

LiveCodeBench — 防污染编程

LiveCodeBench 解决数据污染问题:

  • 特点:从编程竞赛网站实时收集新题
  • 优势:模型不可能在训练时见过
  • 局限:题目类型有限(算法竞赛风格)
  • 适用:公平比较代码能力

嵌入类基准

MTEB — 文本嵌入综合评测

MTEB(Massive Text Embedding Benchmark)覆盖 8 个任务:

任务说明代表数据集
Classification文本分类Amazon Reviews
Clustering文本聚类ArXiv, Reddit
PairClassification句子对匹配SICK-R
Reranking重排序MSMARCO
Retrieval信息检索NQ, HotpotQA
STS语义相似度STS12-16
Summarization摘要SummEval
  • 局限:英文为主,多语言覆盖有限
  • 趋势:MMTEB(多语言版)正在发展

人类偏好基准

Chatbot Arena (LMSYS)

Chatbot Arena 是当前最受信任的人类评估平台:

  • 机制:盲测对比,人类投票选择更好的回答
  • 评分:ELO 等级分系统
  • 优势
    • 真实人类偏好
    • 开放域,覆盖各种场景
    • 难以被"刷分"
  • 局限
    • 主观性强
    • 样本偏差(主要英语用户)
    • 无法区分特定能力

MT-Bench

MT-Bench 使用 GPT-4 作为评判:

  • 形式:多轮对话,GPT-4 评分 1-10
  • 优势:成本低、可扩展、一致性好
  • 局限
    • 评判模型本身的偏见
    • 对超越评判模型的能力无法评估
    • 风格偏好 vs 实质能力

基准的局限性与挑战

数据污染

  • 问题:模型在预训练时可能见过基准数据
  • 影响:分数虚高,无法反映真实能力
  • 缓解
    • 动态基准(LiveCodeBench、Chatbot Arena)
    • 时间切分(只用训练截止日期后的数据)
    • 人工验证

能力窄化

  • 问题:基准只能测量特定能力
  • 例子:MMLU 高分 ≠ 实际有用
  • 趋势:综合评估框架(如 HELM)

过拟合基准

  • 问题:模型针对特定基准优化
  • 例子:在 HumanEval 上训练
  • 影响:基准分数与实际表现脱节

评测策略建议

目标推荐基准组合
通用能力MMLU-Pro + BBH + Arena ELO
推理能力MATH + GSM8K + 自定义推理题
代码能力SWE-bench + LiveCodeBench
嵌入质量MTEB + 领域特定测试
人类偏好Chatbot Arena + 内部 A/B 测试
安全对齐红队测试 + 安全基准套件

新兴评测方向

长上下文评估

  • Needle in a Haystack:在长篇文档中定位特定信息
  • RULER:多维度长上下文测试
  • 趋势:128K+ 上下文成为标配

Agent 评估

  • WebArena:在真实网站上完成任务
  • OSWorld:操作系统级交互
  • SWE-bench Agent:端到端软件工程

多模态评估

  • MMMU:大学级多模态问题
  • MMBench:综合视觉理解
  • 趋势:从单模态向多模态迁移

相关页面

参考来源

  • Hendrycks et al. (2021). "Measuring Massive Multitask Language Understanding." (MMLU)

  • Chen et al. (2021). "Evaluating Large Language Models Trained on Code." (HumanEval)

  • Cobbe et al. (2021). "Training Verifiers to Solve Math Word Problems." (GSM8K)

  • Jimenez et al. (2024). "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?"

  • Muennighoff et al. (2023). "MTEB: Massive Text Embedding Benchmark."

  • Zheng et al. (2023). "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena."

  • Liang et al. (2023). "Holistic Evaluation of Language Models." (HELM)

  • Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

AI Knowledge Base — 持续积累