AI 安全与对齐资源

AI 安全不是可选项，而是可持续发展的基础。本页汇总 AI 安全研究机构、对齐技术、评估工具与政策框架，帮助你构建负责任的 AI 系统。

核心研究机构

顶级安全研究组织

机构	聚焦领域	代表工作	链接
Anthropic Safety	对齐、可解释性、政策	Constitutional AI、Claude 安全系统	anthropic.com/research
MIRI	理论基础、数学对齐	逻辑感知、决策理论	intelligence.org
Redwood Research	机械可解释性、对抗性测试	幻觉检测、反作弊	redwoodresearch.org
Center for AI Safety (CAIS)	安全研究、教育	安全评估、研究合作	safe.ai
Conjecture	可解释性、系统对齐	机械可解释性、编码理论	conjecture.dev
Apollo Research	机械可解释性、欺骗检测	欺骗能力评估	apolloresearch.ai

政府与行业组织

组织	类型	聚焦	链接
AI Safety Institute (UK)	政府	安全评估、标准制定	aisi.gov.uk
US AI Safety Institute	政府	红队测试、标准化	nist.gov/aisi
MLCommons AI Safety	行业	安全评估基准	mlcommons.org/ai-safety
Partnership on AI	行业	最佳实践、政策建议	partnershiponai.org

对齐技术

核心方法

方法	原理	优点	代表工作
RLHF	人类反馈训练奖励模型	直观、效果好	InstructGPT, ChatGPT
Constitutional AI / RLAIF	AI 自我评价和改进	可扩展、少依赖人类标注	Claude 系列
DPO	直接优化偏好差距	简单、稳定	Zephyr, Neural Chat
KTO	从二元反馈学习	更简单的数据需求	新兴方法
RLAIF	AI 生成反馈进行对齐	可扩展、一致性好	Constitutional AI

安全训练技术

技术	目标	实现方式
拒绝训练	减少有害输出	数据过滤、监督精细调整
对抗训练	提高对抗攻击鲁棒性	对抗样本、强化学习
多轮对话安全	防止渐进式诱导	上下文监控、安全标记
知识边界	限制模型知识范围	训练数据筛选、认知限制

评估与测试工具

自动化安全测试

工具	功能	开源	链接
GARAK	多种攻击测试（提示注入、越狡、偏见）	是	GitHub
HarmBench	对抗性评估基准	部分	GitHub
Prompt Automatic Iterative Refinement (PAIR)	自动突破攻击	是	GitHub
AgentHarm	Agent 安全评估	是	GitHub
StrongREJECT	红队测试评估	是	GitHub

安全评估基准

基准	维度	特点	链接
TruthfulQA	诚实性	检测幻觉	GitHub
BBQ (Bias Benchmark)	社会偏见	9 类社会偏见	GitHub
ToxiGen	有害内容	13 类有害语言	HuggingFace
HELM Safety	多维度	综合安全评估	GitHub
MLCommons AI Safety	行业标准	危险分类、评估流程	mlcommons.org

可解释性与机械可解释性

可解释性工具

工具	功能	链接
Transformer Debugger	Anthropic 开源，可视化激活	GitHub
BertViz	注意力可视化	GitHub
Ecco	模型行为分析	GitHub
LIT (Language Interpretability Tool)	Google 开源可解释性	GitHub
Neuronpedia	特征可视化探索	neuronpedia.org

机械可解释性 (Mechanistic Interpretability)

资源	内容	链接
Neel Nanda 教程	Transformer Circuits 入门	neelnanda.io
ARENA Course	机械可解释性实战课程	GitHub
Anthropic Circuits	电路发现与分析	anthropic.com

社区与论坛

平台	类型	特点	链接
Alignment Forum	论坛	技术对齐研究	alignmentforum.org
LessWrong	论坛	AI 安全、理性讨论	lesswrong.com
AI Safety Support	社区	安全研究者支持	aisafety.support
EA Forum	论坛	有效利他主义视角	forum.effectivealtruism.org

安全开发清单

markdown

## AI 安全开发清单

### 设计阶段
- [ ] 安全目标定义（拒绝哪些输出？允许哪些用法？）
- [ ] 潜在风险识别（欺骗、偏见、隐私、滥用）
- [ ] 对齐方法选择

### 训练阶段
- [ ] 训练数据安全筛选
- [ ] 对抗性训练
- [ ] 安全评估基准测试

### 部署阶段
- [ ] 输入过滤
- [ ] 输出审查
- [ ] 监控与预警
- [ ] 人工审核流程

### 运营阶段
- [ ] 定期安全审计
- [ ] 红队测试
- [ ] 用户反馈收集
- [ ] 安全事件响应流程

参考来源

Anthropic 安全研究博客
Alignment Forum 文章
MIRI 研究论文
MLCommons AI Safety 标准
Center for AI Safety 资源

AI 安全与对齐资源 ​

核心研究机构 ​

顶级安全研究组织 ​

政府与行业组织 ​

对齐技术 ​

核心方法 ​

安全训练技术 ​

评估与测试工具 ​

自动化安全测试 ​

安全评估基准 ​

可解释性与机械可解释性 ​

可解释性工具 ​

机械可解释性 (Mechanistic Interpretability) ​

社区与论坛 ​

安全开发清单 ​

相关页面 ​

参考来源 ​

AI 安全与对齐资源

核心研究机构

顶级安全研究组织

政府与行业组织

对齐技术

核心方法

安全训练技术

评估与测试工具

自动化安全测试

安全评估基准

可解释性与机械可解释性

可解释性工具

机械可解释性 (Mechanistic Interpretability)

社区与论坛

安全开发清单

相关页面

参考来源