DPO vs RLHF vs PPO

三种主流的大语言模型对齐方法的系统对比

对比概览

维度	RLHF (PPO)	DPO	PPO (单独使用)
发明时间	2020 (InstructGPT)	2023 (Stanford)	2017 (OpenAI, RL 领域)
阶段数	3 阶段（SFT → RM → RL）	2 阶段（SFT → DPO）	1 阶段（仅 RL）
奖励模型	需要训练和维护	不需要（隐式奖励）	通常需要
训练对象	策略模型 + 价值模型	仅策略模型	策略模型 + 价值模型
显存需求	4-5 个模型同时加载	2 个模型	2-3 个模型
训练稳定性	低（PPO 参数敏感）	高	中（RL 任务稳定）
数据需求	偏好对（+RM 可生成更多）	偏好对	在线交互或离线数据
实现难度	高	低	中

详细对比

RLHF (PPO) — 经典路线

流程：SFT → 训练奖励模型（RM）→ PPO 优化

优点：

经过大规模验证（GPT-4、Claude 3、Gemini 都使用）
奖励模型可以持续生成新数据（在线训练）
理论框架完备，控制灵活

缺点：

训练流程极其复杂（4 模型并行、reward hacking、KL 散度 collapse）
超参数极为敏感（学习率、KL 系数、GAE lambda 等）
计算成本高（RM + Policy 交替推理）

DPO — 简洁路线

流程：SFT → DPO 训练

优点：

训练流程非常简洁，类似 SFT
更稳定，超参数影响小
显存需求低（2 个模型），容易扩展到大模型
非常适合开源社区复现

缺点：

只能使用固定偏好数据集（离线训练）
隐式奖励可能过拟合偏好差距
对偏好数据质量更敏感
在复杂对齐目标（如无害+有用权衡）上不如 RLHF 灵活

PPO（脱离 RLHF 独立使用）

RL 原始方法：PPO 在 LLM 领域通常与 RLHF 关联，但也可以独立用于：

代码生成奖励：基于单元测试通过率
数学推理奖励：基于答案正确性
事实奖励：基于外部知识验证

采用情况

模型	对齐方法
GPT-4	RLHF (PPO)
Claude 3/3.5	RLHF (PPO + Constitutional AI)
Llama 3	DPO
Mistral Large 2	DPO
Qwen 2.5	RLHF + DPO 混合
Gemini	RLHF
DeepSeek V2/V3	DPO + RLHF
Zephyr (HuggingFace)	dDPO

决策指南

选择 DPO 的情景

团队经验有限，需要快速实现对齐
拥有高质量偏好数据集
计算资源受限（DPO 显存需求低）
需要可复现、稳定的训练流程

选择 RLHF 的情景

手头有大量在线/交互式数据源
需要细粒度控制对齐（多个奖励维度）
团队有 RL 训练经验
需要持续从奖励模型采样新数据

选择 PPO（非 RLHF）的情景

有可编程的奖励函数（非人类偏好）
做代码生成（测试通过率）、数学（答案验证）等场景

最新趋势

混合方法: 多家公司采用 RLHF 做基础对齐 + DPO 做微调优化
GRPO (Group Relative Policy Optimization): DeepSeek-R1 提出的组间相对策略优化，去除价值模型和 Critic，比 PPO 更简洁
RLOO (REINFORCE Leave-One-Out): 更简单的在线对齐替代方案
SimPO/ORPO: 进一步简化 DPO，甚至不需要参考模型

相关概念

DPO & Preference Alignment — DPO 详细原理
RLHF — RLHF 详细原理
Fine-tuning — 对齐是微调的重要分支

参考来源

Ouyang et al. (2022). "Training language models to follow instructions with human feedback." NeurIPS (InstructGPT).
Rafailov et al. (2023). "Direct Preference Optimization." NeurIPS 2024.
Schulman et al. (2017). "Proximal Policy Optimization Algorithms." arXiv.
Shao et al. (2024). "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning." (GRPO 部分)