Skip to content

Reinforcement Learning from Human Feedback

RLHF(基于人类反馈的强化学习)是让大语言模型与人类偏好对齐的核心技术之一。它让模型从"只是预测下一个词"走向"生成符合人类期望的回答"。此后 DPO、Constitutional AI 等方法的出现进一步丰富了对齐工具箱。

Definition

RLHF 是一种通过人类偏好信号来训练语言模型的方法,分三步:

  1. SFT(Supervised Fine-Tuning):在人类编写的示范回答上监督微调
  2. Reward Model 训练:收集人类对模型输出的比较排序,训练一个奖励模型来预测人类偏好
  3. PPO RL 微调:用强化学习(PPO 算法)微调 SFT 模型,使其输出获得更高的奖励模型分数,同时用 KL 散度惩罚防止偏离原始策略

Current Understanding

RLHF 最早由 Christiano et al.(2017)在《Deep RL from Human Preferences》中提出,但真正让它规模化的是 OpenAI 的 InstructGPT 论文(Ouyang et al. 2022),直接驱动了 ChatGPT 的对话能力。

后续重要发展包括:

  • DPO(Direct Preference Optimization, 2023):绕过显式奖励模型,直接从偏好对优化策略。更简单、更稳定、更省资源。
  • Constitutional AI(Anthropic, 2023):模型通过"自我批评→修订"的方式内化行为准则,减少对人类标注的依赖。
  • KTO(Kahneman-Tversky Optimization):只需要二元反馈(好/坏而非配对比较),更接近真实场景。
  • Online DPO:DPO + 训练过程中实时采样策略优化的数据。

Why It Matters

  • RLHF 是 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 等产品背后的核心技术之一
  • 它是理解"模型对齐"的关键入口——没有 RLHF,模型只是统计学文本生成器,而非有用的助手
  • RLHF 的局限性(奖励过优化、对齐伪影)正在推动 DPO、CAI 等替代方法的发展
  • Fine-tuningScaling Laws 共同构成了现代 LLM 训练的三大支柱

Open Questions

  • RLHF 的奖励过优化问题如何彻底解决?
  • 当模型能力继续提升,人类能否可靠地评估其输出质量?(可扩展监督问题)
  • DPO 与 PPO 在不同规模模型上的优劣是否有共识?

Sources

  • raw/articles/rlhf-alignment-research-2026-04-26.md

AI Knowledge Base — 持续积累