Appearance
DPO vs RLHF vs PPO
三种主流的大语言模型对齐方法的系统对比
对比概览
| 维度 | RLHF (PPO) | DPO | PPO (单独使用) |
|---|---|---|---|
| 发明时间 | 2020 (InstructGPT) | 2023 (Stanford) | 2017 (OpenAI, RL 领域) |
| 阶段数 | 3 阶段(SFT → RM → RL) | 2 阶段(SFT → DPO) | 1 阶段(仅 RL) |
| 奖励模型 | 需要训练和维护 | 不需要(隐式奖励) | 通常需要 |
| 训练对象 | 策略模型 + 价值模型 | 仅策略模型 | 策略模型 + 价值模型 |
| 显存需求 | 4-5 个模型同时加载 | 2 个模型 | 2-3 个模型 |
| 训练稳定性 | 低(PPO 参数敏感) | 高 | 中(RL 任务稳定) |
| 数据需求 | 偏好对(+RM 可生成更多) | 偏好对 | 在线交互或离线数据 |
| 实现难度 | 高 | 低 | 中 |
详细对比
RLHF (PPO) — 经典路线
流程:SFT → 训练奖励模型(RM)→ PPO 优化
优点:
- 经过大规模验证(GPT-4、Claude 3、Gemini 都使用)
- 奖励模型可以持续生成新数据(在线训练)
- 理论框架完备,控制灵活
缺点:
- 训练流程极其复杂(4 模型并行、reward hacking、KL 散度 collapse)
- 超参数极为敏感(学习率、KL 系数、GAE lambda 等)
- 计算成本高(RM + Policy 交替推理)
DPO — 简洁路线
流程:SFT → DPO 训练
优点:
- 训练流程非常简洁,类似 SFT
- 更稳定,超参数影响小
- 显存需求低(2 个模型),容易扩展到大模型
- 非常适合开源社区复现
缺点:
- 只能使用固定偏好数据集(离线训练)
- 隐式奖励可能过拟合偏好差距
- 对偏好数据质量更敏感
- 在复杂对齐目标(如无害+有用权衡)上不如 RLHF 灵活
PPO(脱离 RLHF 独立使用)
RL 原始方法:PPO 在 LLM 领域通常与 RLHF 关联,但也可以独立用于:
- 代码生成奖励:基于单元测试通过率
- 数学推理奖励:基于答案正确性
- 事实奖励:基于外部知识验证
采用情况
| 模型 | 对齐方法 |
|---|---|
| GPT-4 | RLHF (PPO) |
| Claude 3/3.5 | RLHF (PPO + Constitutional AI) |
| Llama 3 | DPO |
| Mistral Large 2 | DPO |
| Qwen 2.5 | RLHF + DPO 混合 |
| Gemini | RLHF |
| DeepSeek V2/V3 | DPO + RLHF |
| Zephyr (HuggingFace) | dDPO |
决策指南
选择 DPO 的情景
- 团队经验有限,需要快速实现对齐
- 拥有高质量偏好数据集
- 计算资源受限(DPO 显存需求低)
- 需要可复现、稳定的训练流程
选择 RLHF 的情景
- 手头有大量在线/交互式数据源
- 需要细粒度控制对齐(多个奖励维度)
- 团队有 RL 训练经验
- 需要持续从奖励模型采样新数据
选择 PPO(非 RLHF)的情景
- 有可编程的奖励函数(非人类偏好)
- 做代码生成(测试通过率)、数学(答案验证)等场景
最新趋势
- 混合方法: 多家公司采用 RLHF 做基础对齐 + DPO 做微调优化
- GRPO (Group Relative Policy Optimization): DeepSeek-R1 提出的组间相对策略优化,去除价值模型和 Critic,比 PPO 更简洁
- RLOO (REINFORCE Leave-One-Out): 更简单的在线对齐替代方案
- SimPO/ORPO: 进一步简化 DPO,甚至不需要参考模型
相关概念
- DPO & Preference Alignment — DPO 详细原理
- RLHF — RLHF 详细原理
- Fine-tuning — 对齐是微调的重要分支
参考来源
- Ouyang et al. (2022). "Training language models to follow instructions with human feedback." NeurIPS (InstructGPT).
- Rafailov et al. (2023). "Direct Preference Optimization." NeurIPS 2024.
- Schulman et al. (2017). "Proximal Policy Optimization Algorithms." arXiv.
- Shao et al. (2024). "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning." (GRPO 部分)