Appearance
Reinforcement Learning from Human Feedback
RLHF(基于人类反馈的强化学习)是让大语言模型与人类偏好对齐的核心技术之一。它让模型从"只是预测下一个词"走向"生成符合人类期望的回答"。此后 DPO、Constitutional AI 等方法的出现进一步丰富了对齐工具箱。
Definition
RLHF 是一种通过人类偏好信号来训练语言模型的方法,分三步:
- SFT(Supervised Fine-Tuning):在人类编写的示范回答上监督微调
- Reward Model 训练:收集人类对模型输出的比较排序,训练一个奖励模型来预测人类偏好
- PPO RL 微调:用强化学习(PPO 算法)微调 SFT 模型,使其输出获得更高的奖励模型分数,同时用 KL 散度惩罚防止偏离原始策略
Current Understanding
RLHF 最早由 Christiano et al.(2017)在《Deep RL from Human Preferences》中提出,但真正让它规模化的是 OpenAI 的 InstructGPT 论文(Ouyang et al. 2022),直接驱动了 ChatGPT 的对话能力。
后续重要发展包括:
- DPO(Direct Preference Optimization, 2023):绕过显式奖励模型,直接从偏好对优化策略。更简单、更稳定、更省资源。
- Constitutional AI(Anthropic, 2023):模型通过"自我批评→修订"的方式内化行为准则,减少对人类标注的依赖。
- KTO(Kahneman-Tversky Optimization):只需要二元反馈(好/坏而非配对比较),更接近真实场景。
- Online DPO:DPO + 训练过程中实时采样策略优化的数据。
Why It Matters
- RLHF 是 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 等产品背后的核心技术之一
- 它是理解"模型对齐"的关键入口——没有 RLHF,模型只是统计学文本生成器,而非有用的助手
- RLHF 的局限性(奖励过优化、对齐伪影)正在推动 DPO、CAI 等替代方法的发展
- 与 Fine-tuning 和 Scaling Laws 共同构成了现代 LLM 训练的三大支柱
Related Concepts
Open Questions
- RLHF 的奖励过优化问题如何彻底解决?
- 当模型能力继续提升,人类能否可靠地评估其输出质量?(可扩展监督问题)
- DPO 与 PPO 在不同规模模型上的优劣是否有共识?
Sources
- raw/articles/rlhf-alignment-research-2026-04-26.md