Appearance
GRPO / RLVR
GRPO (Group Relative Policy Optimization) 和 RLVR (Reinforcement Learning with Verifiable Rewards) 是 2024-2025 年推理模型训练领域最重要的突破之一。DeepSeek-R1 通过这些方法在无需人类标注的情况下实现了强大的推理能力,证明了可验证奖励在 AI 训练中的巨大潜力。
背景: 从 RLHF 到可验证奖励
RLHF 的局限
传统的 RLHF (Reinforcement Learning from Human Feedback) 存在一些问题:
- 人类标注成本高: 需要大量人工评价
- 主观性: 不同标注者的偏好不一致
- 难以验证: 对于复杂推理任务,人类很难准确评价
可验证奖励的优势
某些任务的正确性可以自动验证:
- 数学问题: 答案是否正确可以通过计算验证
- 代码问题: 代码是否能通过测试用例
- 逻辑推理: 结论是否从前提正确推导
关键观察: 如果奖励可以自动验证,就不需要人类参与了。
GRPO: Group Relative Policy Optimization
核心思想
GRPO 是 DeepSeek 在 DeepSeek-R1 中采用的方法,它是 PPO 的简化版本:
- 对每个问题生成多个答案 (组里采样)
- 对每个答案计算奖励 (可验证任务)
- 用组内相对分数更新策略 (无需价值网络)
与 PPO 的对比
| 特征 | PPO | GRPO |
|---|---|---|
| 价值网络 | 需要单独训练 | 不需要 |
| 参考基准 | 全局价值函数 | 组内平均 |
| 计算复杂度 | 高 (两个网络) | 低 (一个策略网络) |
| 内存占用 | 大 | 小 |
| 稳定性 | 训练不稳定 | 更稳定 |
数学形式
GRPO 的目标函数:
J_GRPO(θ) = E[ (1/G) Σ_i ( min( r_i(θ) · A_i, clip(r_i(θ), 1-ε, 1+ε) · A_i ) ) - β · KL(π_θ || π_ref) ]
其中:
- G: 组大小 (每个问题的答案数量)
- r_i(θ): 策略比率
- A_i: 组内相对优势 (奖励 - 组平均)
- KL: 与参考策略的 KL 散度罚款RLVR: Reinforcement Learning with Verifiable Rewards
更广义的框架
RLVR 是对 GRPO 类方法的更广义描述,强调可验证奖励这一核心特征:
RLVR 流程:
1. 采样: 策略模型生成多个答案
2. 验证: 自动验证器检查答案正确性
3. 奖励: 根据验证结果分配奖励
4. 更新: 优化策略以最大化期望奖励应用场景
| 任务类型 | 验证方式 | 例子 |
|---|---|---|
| 数学 | 符号验算 | GSM8K, MATH |
| 代码 | 单元测试 | HumanEval, SWE-bench |
| 逻辑 | 自动推理验证 | 形式化逻辑 |
| 科学 | 实验验证 | 化学反应预测 |
DeepSeek-R1 的成功
训练管道
DeepSeek-R1 的训练过程展示了 GRPO/RLVR 的威力:
- 冷启动 (Cold Start): 用少量高质量数据训练基础模型
- 推理向强化学习 (RL for Reasoning): 用 GRPO 训练推理能力
- 收集 SFT 数据: 从 RL 训练的模型中收集高质量输出
- 通用强化学习: 在更广泛的任务上进一步训练
关键结果
- 无需人类标注: 全程使用可验证奖励
- 自然出现推理链: 模型自动学会"思考"
- 性能突破: 在多个 benchmark 上接近或超越 o1
"Aha Moment"
DeepSeek 团队观察到一个有趣的现象:
- 模型在训练过程中自然开始使用更长的推理链
- 会"重新评估"自己的答案
- 这些行为不是显式编程的,而是从可验证奖励中学习而来
与其他方法的关系
GRPO vs DPO
| 特征 | DPO | GRPO |
|---|---|---|
| 数据需求 | 需要成对比数据 | 只需要可验证答案 |
| 奖励来源 | 人类偏好 | 自动验证 |
| 适用场景 | 通用对话 | 推理、代码、数学 |
| 计算效率 | 高 | 中等 (需要多次采样) |
GRPO vs PPO
GRPO 可以看作 PPO 的简化和优化:
- 去掉了价值网络
- 用组内相对优势替代全局价值
- 更适合可验证奖励场景
Synthesis
GRPO/RLVR 代表了 AI 训练的一个重要转向:**从"仿仿人类"到"超越人类"。当任务的正确性可以自动验证时,AI 可以通过强化学习自主探索解决方案,而不是被限制在人类标注者的认知范围内。DeepSeek-R1 的成功证明了这一方法的巨大潜力,可能会影响未来所有推理模型的训练方式。
Related Pages
- RLHF — RLHF 技术
- DPO & Preference Alignment — DPO 偏好对齐
- Test-Time Compute / Inference-Time Scaling — 测试时计算
- DeepSeek — DeepSeek 公司与模型
- Chain-of-Thought & Reasoning — 思维链推理
Sources
DeepSeek-R1 Technical Report (2025)
"DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models" (2024)
PPO 论文: "Proximal Policy Optimization Algorithms" (Schulman et al., 2017)
GRPO 相关技术文档
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程