AI 评估工具资源

“你无法改进你无法测量的东西”。模型评估是 AI 开发的核心环节，本页汇总最实用的评估工具和基准。

评估工具导航

综合评测框架

工具	功能	支持模型	特点	链接
lm-evaluation-harness	多基准评测	开源模型	EleutherAI 开发，60+ 基准	GitHub
OpenCompass	中文评测	开源/闭源	上海 AI Lab 开发，中文优化	GitHub
HELM	全面评测	多家 API	Stanford 开发，多维度评估	GitHub
AlpacaEval	指令跟随评测	开源模型	简单高效的指令评测	GitHub
MT-bench	多轮对话评测	API 模型	LMSYS 开发，GPT-4 评判	GitHub

安全评估工具

工具	功能	特点	链接
GARAK	自动化 Red Teaming	多种攻击测试	GitHub
MLCommons AI Safety	安全评估基准	行业标准化	mlcommons.org
HarmBench	对抗性评估	系统化测试	GitHub
Perspectice API	内容审核	Google 开发	developers.google.com
Azure Content Safety	内容审核	Microsoft 开发	azure.microsoft.com

多模态评测

工具	功能	特点	链接
MMMU	大学级多模态理解	高难度评测	GitHub
MMBench	多模态理解	综合能力评测	GitHub
TextVQA	图片中文本理解	VQA 类型	textvqa.org
ScienceQA	科学图表理解	教育场景	scienceqa.github.io

代码评测

工具	功能	特点	链接
HumanEval	代码生成评测	OpenAI 开发	GitHub
MBPP	Python 代码评测	多种难度	GitHub
SWE-bench	软件工程评测	真实 GitHub Issues	GitHub
LiveCodeBench	竞赛级代码评测	持续更新	livecodebench.github.io

推理优化工具

工具	功能	特点	链接
vLLM Benchmarks	推理性能测试	内置测试工具	docs.vllm.ai
TensorRT-LLM Benchmark	GPU 推理测试	NVIDIA 官方	nvidia.github.io
LLMPerf	统一性能评测	多框架对比	GitHub
AIBrix	推理成本优化	云端部署优化	GitHub

评测基准导航

通用能力基准

基准	维度	样本数	适用模型
MMLU	57 个学科知识	15,908	通用模型
GSM8K	数学推理	8,500	推理模型
HumanEval	代码生成	164	编程模型
BBH	大脑推理	6,511	推理模型
ARC	科学推理	7,787	推理模型
HellaSwag	常识推理	39,905	通用模型

中文评测基准

基准	维度	样本数	开发方
C-Eval	中文综合能力	13,948	清华/上海 AI Lab
CMMLU	中文多任务	11,528	清华/上海 AI Lab
Gaokao	高考题目	2,781	清华
CLUE	中文理解	多个子任务	北大

安全评测基准

基准	维度	样本数	特点
TruthfulQA	诚实性	817	检测幻觉
Toxicity	有害性	变动	多种测试集
Bias	偏见	变动	社会偏见检测
Privacy	隐私	变动	敏感信息泄露

评估最佳实践

评估流程模板

markdown

## 模型评估检查清单

### 基础能力
- [ ] MMLU (知识理解)
- [ ] GSM8K (数学推理)
- [ ] HumanEval (Python 代码)
- [ ] BBH (复杂推理)

### 安全性
- [ ] TruthfulQA (诚实性)
- [ ] Toxicity 测试 (有害内容)
- [ ] Bias 测试 (偏见)
- [ ] Red Teaming (对抗测试)

### 实用性
- [ ] 特定领域测试
- [ ] 用户体验评估
- [ ] 延迟测试
- [ ] 成本估算

### 运营
- [ ] 推理性能基准
- [ ] 可扩展性测试
- [ ] 稳定性测试
- [ ] 监控指标定义

常见评估陷阱

过拟合基准: 模型在训练数据上表现好，但泛化能力差
基准污染: 训练数据包含测试集内容
评分歧视: 仅关注容易量化的指标
安全忽视: 忽略安全性和对齐评估

参考来源

EleutherAI lm-evaluation-harness 文档
Stanford HELM 文档
OpenCompass 文档
MLCommons AI Safety 标准
LMSYS Chatbot Arena 排行榜

AI 评估工具资源 ​

评估工具导航 ​

综合评测框架 ​

安全评估工具 ​

多模态评测 ​

代码评测 ​

推理优化工具 ​

评测基准导航 ​

通用能力基准 ​

中文评测基准 ​

安全评测基准 ​

评估最佳实践 ​

评估流程模板 ​

常见评估陷阱 ​

相关页面 ​

参考来源 ​

AI 评估工具资源

评估工具导航

综合评测框架

安全评估工具

多模态评测

代码评测

推理优化工具

评测基准导航

通用能力基准

中文评测基准

安全评测基准

评估最佳实践

评估流程模板

常见评估陷阱

相关页面

参考来源