Appearance
AI 安全与对齐资源
AI 安全不是可选项,而是可持续发展的基础。本页汇总 AI 安全研究机构、对齐技术、评估工具与政策框架,帮助你构建负责任的 AI 系统。
核心研究机构
顶级安全研究组织
| 机构 | 聚焦领域 | 代表工作 | 链接 |
|---|---|---|---|
| Anthropic Safety | 对齐、可解释性、政策 | Constitutional AI、Claude 安全系统 | anthropic.com/research |
| MIRI | 理论基础、数学对齐 | 逻辑感知、决策理论 | intelligence.org |
| Redwood Research | 机械可解释性、对抗性测试 | 幻觉检测、反作弊 | redwoodresearch.org |
| Center for AI Safety (CAIS) | 安全研究、教育 | 安全评估、研究合作 | safe.ai |
| Conjecture | 可解释性、系统对齐 | 机械可解释性、编码理论 | conjecture.dev |
| Apollo Research | 机械可解释性、欺骗检测 | 欺骗能力评估 | apolloresearch.ai |
政府与行业组织
| 组织 | 类型 | 聚焦 | 链接 |
|---|---|---|---|
| AI Safety Institute (UK) | 政府 | 安全评估、标准制定 | aisi.gov.uk |
| US AI Safety Institute | 政府 | 红队测试、标准化 | nist.gov/aisi |
| MLCommons AI Safety | 行业 | 安全评估基准 | mlcommons.org/ai-safety |
| Partnership on AI | 行业 | 最佳实践、政策建议 | partnershiponai.org |
对齐技术
核心方法
| 方法 | 原理 | 优点 | 代表工作 |
|---|---|---|---|
| RLHF | 人类反馈训练奖励模型 | 直观、效果好 | InstructGPT, ChatGPT |
| Constitutional AI / RLAIF | AI 自我评价和改进 | 可扩展、少依赖人类标注 | Claude 系列 |
| DPO | 直接优化偏好差距 | 简单、稳定 | Zephyr, Neural Chat |
| KTO | 从二元反馈学习 | 更简单的数据需求 | 新兴方法 |
| RLAIF | AI 生成反馈进行对齐 | 可扩展、一致性好 | Constitutional AI |
安全训练技术
| 技术 | 目标 | 实现方式 |
|---|---|---|
| 拒绝训练 | 减少有害输出 | 数据过滤、监督精细调整 |
| 对抗训练 | 提高对抗攻击鲁棒性 | 对抗样本、强化学习 |
| 多轮对话安全 | 防止渐进式诱导 | 上下文监控、安全标记 |
| 知识边界 | 限制模型知识范围 | 训练数据筛选、认知限制 |
评估与测试工具
自动化安全测试
| 工具 | 功能 | 开源 | 链接 |
|---|---|---|---|
| GARAK | 多种攻击测试(提示注入、越狡、偏见) | 是 | GitHub |
| HarmBench | 对抗性评估基准 | 部分 | GitHub |
| Prompt Automatic Iterative Refinement (PAIR) | 自动突破攻击 | 是 | GitHub |
| AgentHarm | Agent 安全评估 | 是 | GitHub |
| StrongREJECT | 红队测试评估 | 是 | GitHub |
安全评估基准
| 基准 | 维度 | 特点 | 链接 |
|---|---|---|---|
| TruthfulQA | 诚实性 | 检测幻觉 | GitHub |
| BBQ (Bias Benchmark) | 社会偏见 | 9 类社会偏见 | GitHub |
| ToxiGen | 有害内容 | 13 类有害语言 | HuggingFace |
| HELM Safety | 多维度 | 综合安全评估 | GitHub |
| MLCommons AI Safety | 行业标准 | 危险分类、评估流程 | mlcommons.org |
可解释性与机械可解释性
可解释性工具
| 工具 | 功能 | 链接 |
|---|---|---|
| Transformer Debugger | Anthropic 开源,可视化激活 | GitHub |
| BertViz | 注意力可视化 | GitHub |
| Ecco | 模型行为分析 | GitHub |
| LIT (Language Interpretability Tool) | Google 开源可解释性 | GitHub |
| Neuronpedia | 特征可视化探索 | neuronpedia.org |
机械可解释性 (Mechanistic Interpretability)
| 资源 | 内容 | 链接 |
|---|---|---|
| Neel Nanda 教程 | Transformer Circuits 入门 | neelnanda.io |
| ARENA Course | 机械可解释性实战课程 | GitHub |
| Anthropic Circuits | 电路发现与分析 | anthropic.com |
社区与论坛
| 平台 | 类型 | 特点 | 链接 |
|---|---|---|---|
| Alignment Forum | 论坛 | 技术对齐研究 | alignmentforum.org |
| LessWrong | 论坛 | AI 安全、理性讨论 | lesswrong.com |
| AI Safety Support | 社区 | 安全研究者支持 | aisafety.support |
| EA Forum | 论坛 | 有效利他主义视角 | forum.effectivealtruism.org |
安全开发清单
markdown
## AI 安全开发清单
### 设计阶段
- [ ] 安全目标定义(拒绝哪些输出?允许哪些用法?)
- [ ] 潜在风险识别(欺骗、偏见、隐私、滥用)
- [ ] 对齐方法选择
### 训练阶段
- [ ] 训练数据安全筛选
- [ ] 对抗性训练
- [ ] 安全评估基准测试
### 部署阶段
- [ ] 输入过滤
- [ ] 输出审查
- [ ] 监控与预警
- [ ] 人工审核流程
### 运营阶段
- [ ] 定期安全审计
- [ ] 红队测试
- [ ] 用户反馈收集
- [ ] 安全事件响应流程相关页面
- AI Safety & Alignment — AI 安全与对齐概念
- Red Teaming — Red Teaming 技术
- Constitutional AI / RLAIF — Constitutional AI / RLAIF
- AI Hallucination — AI 幻觉
- AI 评估工具资源 — AI 评估工具
- AI 安全对齐方法对比 — AI 安全对齐方法对比
参考来源
- Anthropic 安全研究博客
- Alignment Forum 文章
- MIRI 研究论文
- MLCommons AI Safety 标准
- Center for AI Safety 资源