Skip to content

AI 安全与对齐资源

AI 安全不是可选项,而是可持续发展的基础。本页汇总 AI 安全研究机构、对齐技术、评估工具与政策框架,帮助你构建负责任的 AI 系统。

核心研究机构

顶级安全研究组织

机构聚焦领域代表工作链接
Anthropic Safety对齐、可解释性、政策Constitutional AI、Claude 安全系统anthropic.com/research
MIRI理论基础、数学对齐逻辑感知、决策理论intelligence.org
Redwood Research机械可解释性、对抗性测试幻觉检测、反作弊redwoodresearch.org
Center for AI Safety (CAIS)安全研究、教育安全评估、研究合作safe.ai
Conjecture可解释性、系统对齐机械可解释性、编码理论conjecture.dev
Apollo Research机械可解释性、欺骗检测欺骗能力评估apolloresearch.ai

政府与行业组织

组织类型聚焦链接
AI Safety Institute (UK)政府安全评估、标准制定aisi.gov.uk
US AI Safety Institute政府红队测试、标准化nist.gov/aisi
MLCommons AI Safety行业安全评估基准mlcommons.org/ai-safety
Partnership on AI行业最佳实践、政策建议partnershiponai.org

对齐技术

核心方法

方法原理优点代表工作
RLHF人类反馈训练奖励模型直观、效果好InstructGPT, ChatGPT
Constitutional AI / RLAIFAI 自我评价和改进可扩展、少依赖人类标注Claude 系列
DPO直接优化偏好差距简单、稳定Zephyr, Neural Chat
KTO从二元反馈学习更简单的数据需求新兴方法
RLAIFAI 生成反馈进行对齐可扩展、一致性好Constitutional AI

安全训练技术

技术目标实现方式
拒绝训练减少有害输出数据过滤、监督精细调整
对抗训练提高对抗攻击鲁棒性对抗样本、强化学习
多轮对话安全防止渐进式诱导上下文监控、安全标记
知识边界限制模型知识范围训练数据筛选、认知限制

评估与测试工具

自动化安全测试

工具功能开源链接
GARAK多种攻击测试(提示注入、越狡、偏见)GitHub
HarmBench对抗性评估基准部分GitHub
Prompt Automatic Iterative Refinement (PAIR)自动突破攻击GitHub
AgentHarmAgent 安全评估GitHub
StrongREJECT红队测试评估GitHub

安全评估基准

基准维度特点链接
TruthfulQA诚实性检测幻觉GitHub
BBQ (Bias Benchmark)社会偏见9 类社会偏见GitHub
ToxiGen有害内容13 类有害语言HuggingFace
HELM Safety多维度综合安全评估GitHub
MLCommons AI Safety行业标准危险分类、评估流程mlcommons.org

可解释性与机械可解释性

可解释性工具

工具功能链接
Transformer DebuggerAnthropic 开源,可视化激活GitHub
BertViz注意力可视化GitHub
Ecco模型行为分析GitHub
LIT (Language Interpretability Tool)Google 开源可解释性GitHub
Neuronpedia特征可视化探索neuronpedia.org

机械可解释性 (Mechanistic Interpretability)

资源内容链接
Neel Nanda 教程Transformer Circuits 入门neelnanda.io
ARENA Course机械可解释性实战课程GitHub
Anthropic Circuits电路发现与分析anthropic.com

社区与论坛

平台类型特点链接
Alignment Forum论坛技术对齐研究alignmentforum.org
LessWrong论坛AI 安全、理性讨论lesswrong.com
AI Safety Support社区安全研究者支持aisafety.support
EA Forum论坛有效利他主义视角forum.effectivealtruism.org

安全开发清单

markdown
## AI 安全开发清单

### 设计阶段
- [ ] 安全目标定义(拒绝哪些输出?允许哪些用法?)
- [ ] 潜在风险识别(欺骗、偏见、隐私、滥用)
- [ ] 对齐方法选择

### 训练阶段
- [ ] 训练数据安全筛选
- [ ] 对抗性训练
- [ ] 安全评估基准测试

### 部署阶段
- [ ] 输入过滤
- [ ] 输出审查
- [ ] 监控与预警
- [ ] 人工审核流程

### 运营阶段
- [ ] 定期安全审计
- [ ] 红队测试
- [ ] 用户反馈收集
- [ ] 安全事件响应流程

相关页面

参考来源

  • Anthropic 安全研究博客
  • Alignment Forum 文章
  • MIRI 研究论文
  • MLCommons AI Safety 标准
  • Center for AI Safety 资源

AI Knowledge Base — 持续积累