Reinforcement Learning from Human Feedback

RLHF（基于人类反馈的强化学习）是让大语言模型与人类偏好对齐的核心技术之一。它让模型从"只是预测下一个词"走向"生成符合人类期望的回答"。此后 DPO、Constitutional AI 等方法的出现进一步丰富了对齐工具箱。

Definition

RLHF 是一种通过人类偏好信号来训练语言模型的方法，分三步：

SFT（Supervised Fine-Tuning）：在人类编写的示范回答上监督微调
Reward Model 训练：收集人类对模型输出的比较排序，训练一个奖励模型来预测人类偏好
PPO RL 微调：用强化学习（PPO 算法）微调 SFT 模型，使其输出获得更高的奖励模型分数，同时用 KL 散度惩罚防止偏离原始策略

Current Understanding

RLHF 最早由 Christiano et al.（2017）在《Deep RL from Human Preferences》中提出，但真正让它规模化的是 OpenAI 的 InstructGPT 论文（Ouyang et al. 2022），直接驱动了 ChatGPT 的对话能力。

后续重要发展包括：

DPO（Direct Preference Optimization, 2023）：绕过显式奖励模型，直接从偏好对优化策略。更简单、更稳定、更省资源。
Constitutional AI（Anthropic, 2023）：模型通过"自我批评→修订"的方式内化行为准则，减少对人类标注的依赖。
KTO（Kahneman-Tversky Optimization）：只需要二元反馈（好/坏而非配对比较），更接近真实场景。
Online DPO：DPO + 训练过程中实时采样策略优化的数据。

Why It Matters

RLHF 是 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 等产品背后的核心技术之一
它是理解"模型对齐"的关键入口——没有 RLHF，模型只是统计学文本生成器，而非有用的助手
RLHF 的局限性（奖励过优化、对齐伪影）正在推动 DPO、CAI 等替代方法的发展
与 Fine-tuning 和 Scaling Laws 共同构成了现代 LLM 训练的三大支柱

相关概念：Fine-tuning、Scaling Laws、AI Agents、AI Safety & Alignment
相关实体：OpenAI、Anthropic、DeepSeek

Open Questions

RLHF 的奖励过优化问题如何彻底解决？
当模型能力继续提升，人类能否可靠地评估其输出质量？（可扩展监督问题）
DPO 与 PPO 在不同规模模型上的优劣是否有共识？

Sources

raw/articles/rlhf-alignment-research-2026-04-26.md