Appearance
AI 评估工具资源
“你无法改进你无法测量的东西”。模型评估是 AI 开发的核心环节,本页汇总最实用的评估工具和基准。
评估工具导航
综合评测框架
| 工具 | 功能 | 支持模型 | 特点 | 链接 |
|---|---|---|---|---|
| lm-evaluation-harness | 多基准评测 | 开源模型 | EleutherAI 开发,60+ 基准 | GitHub |
| OpenCompass | 中文评测 | 开源/闭源 | 上海 AI Lab 开发,中文优化 | GitHub |
| HELM | 全面评测 | 多家 API | Stanford 开发,多维度评估 | GitHub |
| AlpacaEval | 指令跟随评测 | 开源模型 | 简单高效的指令评测 | GitHub |
| MT-bench | 多轮对话评测 | API 模型 | LMSYS 开发,GPT-4 评判 | GitHub |
安全评估工具
| 工具 | 功能 | 特点 | 链接 |
|---|---|---|---|
| GARAK | 自动化 Red Teaming | 多种攻击测试 | GitHub |
| MLCommons AI Safety | 安全评估基准 | 行业标准化 | mlcommons.org |
| HarmBench | 对抗性评估 | 系统化测试 | GitHub |
| Perspectice API | 内容审核 | Google 开发 | developers.google.com |
| Azure Content Safety | 内容审核 | Microsoft 开发 | azure.microsoft.com |
多模态评测
| 工具 | 功能 | 特点 | 链接 |
|---|---|---|---|
| MMMU | 大学级多模态理解 | 高难度评测 | GitHub |
| MMBench | 多模态理解 | 综合能力评测 | GitHub |
| TextVQA | 图片中文本理解 | VQA 类型 | textvqa.org |
| ScienceQA | 科学图表理解 | 教育场景 | scienceqa.github.io |
代码评测
| 工具 | 功能 | 特点 | 链接 |
|---|---|---|---|
| HumanEval | 代码生成评测 | OpenAI 开发 | GitHub |
| MBPP | Python 代码评测 | 多种难度 | GitHub |
| SWE-bench | 软件工程评测 | 真实 GitHub Issues | GitHub |
| LiveCodeBench | 竞赛级代码评测 | 持续更新 | livecodebench.github.io |
推理优化工具
| 工具 | 功能 | 特点 | 链接 |
|---|---|---|---|
| vLLM Benchmarks | 推理性能测试 | 内置测试工具 | docs.vllm.ai |
| TensorRT-LLM Benchmark | GPU 推理测试 | NVIDIA 官方 | nvidia.github.io |
| LLMPerf | 统一性能评测 | 多框架对比 | GitHub |
| AIBrix | 推理成本优化 | 云端部署优化 | GitHub |
评测基准导航
通用能力基准
| 基准 | 维度 | 样本数 | 适用模型 |
|---|---|---|---|
| MMLU | 57 个学科知识 | 15,908 | 通用模型 |
| GSM8K | 数学推理 | 8,500 | 推理模型 |
| HumanEval | 代码生成 | 164 | 编程模型 |
| BBH | 大脑推理 | 6,511 | 推理模型 |
| ARC | 科学推理 | 7,787 | 推理模型 |
| HellaSwag | 常识推理 | 39,905 | 通用模型 |
中文评测基准
| 基准 | 维度 | 样本数 | 开发方 |
|---|---|---|---|
| C-Eval | 中文综合能力 | 13,948 | 清华/上海 AI Lab |
| CMMLU | 中文多任务 | 11,528 | 清华/上海 AI Lab |
| Gaokao | 高考题目 | 2,781 | 清华 |
| CLUE | 中文理解 | 多个子任务 | 北大 |
安全评测基准
| 基准 | 维度 | 样本数 | 特点 |
|---|---|---|---|
| TruthfulQA | 诚实性 | 817 | 检测幻觉 |
| Toxicity | 有害性 | 变动 | 多种测试集 |
| Bias | 偏见 | 变动 | 社会偏见检测 |
| Privacy | 隐私 | 变动 | 敏感信息泄露 |
评估最佳实践
评估流程模板
markdown
## 模型评估检查清单
### 基础能力
- [ ] MMLU (知识理解)
- [ ] GSM8K (数学推理)
- [ ] HumanEval (Python 代码)
- [ ] BBH (复杂推理)
### 安全性
- [ ] TruthfulQA (诚实性)
- [ ] Toxicity 测试 (有害内容)
- [ ] Bias 测试 (偏见)
- [ ] Red Teaming (对抗测试)
### 实用性
- [ ] 特定领域测试
- [ ] 用户体验评估
- [ ] 延迟测试
- [ ] 成本估算
### 运营
- [ ] 推理性能基准
- [ ] 可扩展性测试
- [ ] 稳定性测试
- [ ] 监控指标定义常见评估陷阱
- 过拟合基准: 模型在训练数据上表现好,但泛化能力差
- 基准污染: 训练数据包含测试集内容
- 评分歧视: 仅关注容易量化的指标
- 安全忽视: 忽略安全性和对齐评估
相关页面
- LLM 评测基准对比 — LLM 评测基准对比
- AI Safety & Alignment — AI 安全与对齐
- Red Teaming — Red Teaming 技术
- AI Hallucination — AI 幻觉
- LLM Evaluation — LLM 评估概念
参考来源
- EleutherAI lm-evaluation-harness 文档
- Stanford HELM 文档
- OpenCompass 文档
- MLCommons AI Safety 标准
- LMSYS Chatbot Arena 排行榜