Skip to content

DPO vs RLHF vs PPO

三种主流的大语言模型对齐方法的系统对比

对比概览

维度RLHF (PPO)DPOPPO (单独使用)
发明时间2020 (InstructGPT)2023 (Stanford)2017 (OpenAI, RL 领域)
阶段数3 阶段(SFT → RM → RL)2 阶段(SFT → DPO)1 阶段(仅 RL)
奖励模型需要训练和维护不需要(隐式奖励)通常需要
训练对象策略模型 + 价值模型仅策略模型策略模型 + 价值模型
显存需求4-5 个模型同时加载2 个模型2-3 个模型
训练稳定性低(PPO 参数敏感)中(RL 任务稳定)
数据需求偏好对(+RM 可生成更多)偏好对在线交互或离线数据
实现难度

详细对比

RLHF (PPO) — 经典路线

流程:SFT → 训练奖励模型(RM)→ PPO 优化

优点:

  • 经过大规模验证(GPT-4、Claude 3、Gemini 都使用)
  • 奖励模型可以持续生成新数据(在线训练)
  • 理论框架完备,控制灵活

缺点:

  • 训练流程极其复杂(4 模型并行、reward hacking、KL 散度 collapse)
  • 超参数极为敏感(学习率、KL 系数、GAE lambda 等)
  • 计算成本高(RM + Policy 交替推理)

DPO — 简洁路线

流程:SFT → DPO 训练

优点:

  • 训练流程非常简洁,类似 SFT
  • 更稳定,超参数影响小
  • 显存需求低(2 个模型),容易扩展到大模型
  • 非常适合开源社区复现

缺点:

  • 只能使用固定偏好数据集(离线训练)
  • 隐式奖励可能过拟合偏好差距
  • 对偏好数据质量更敏感
  • 在复杂对齐目标(如无害+有用权衡)上不如 RLHF 灵活

PPO(脱离 RLHF 独立使用)

RL 原始方法:PPO 在 LLM 领域通常与 RLHF 关联,但也可以独立用于:

  • 代码生成奖励:基于单元测试通过率
  • 数学推理奖励:基于答案正确性
  • 事实奖励:基于外部知识验证

采用情况

模型对齐方法
GPT-4RLHF (PPO)
Claude 3/3.5RLHF (PPO + Constitutional AI)
Llama 3DPO
Mistral Large 2DPO
Qwen 2.5RLHF + DPO 混合
GeminiRLHF
DeepSeek V2/V3DPO + RLHF
Zephyr (HuggingFace)dDPO

决策指南

选择 DPO 的情景

  • 团队经验有限,需要快速实现对齐
  • 拥有高质量偏好数据集
  • 计算资源受限(DPO 显存需求低)
  • 需要可复现、稳定的训练流程

选择 RLHF 的情景

  • 手头有大量在线/交互式数据源
  • 需要细粒度控制对齐(多个奖励维度)
  • 团队有 RL 训练经验
  • 需要持续从奖励模型采样新数据

选择 PPO(非 RLHF)的情景

  • 有可编程的奖励函数(非人类偏好)
  • 做代码生成(测试通过率)、数学(答案验证)等场景

最新趋势

  • 混合方法: 多家公司采用 RLHF 做基础对齐 + DPO 做微调优化
  • GRPO (Group Relative Policy Optimization): DeepSeek-R1 提出的组间相对策略优化,去除价值模型和 Critic,比 PPO 更简洁
  • RLOO (REINFORCE Leave-One-Out): 更简单的在线对齐替代方案
  • SimPO/ORPO: 进一步简化 DPO,甚至不需要参考模型

相关概念

参考来源

  • Ouyang et al. (2022). "Training language models to follow instructions with human feedback." NeurIPS (InstructGPT).
  • Rafailov et al. (2023). "Direct Preference Optimization." NeurIPS 2024.
  • Schulman et al. (2017). "Proximal Policy Optimization Algorithms." arXiv.
  • Shao et al. (2024). "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning." (GRPO 部分)

AI Knowledge Base — 持续积累