Skip to content

GRPO / RLVR

GRPO (Group Relative Policy Optimization) 和 RLVR (Reinforcement Learning with Verifiable Rewards) 是 2024-2025 年推理模型训练领域最重要的突破之一。DeepSeek-R1 通过这些方法在无需人类标注的情况下实现了强大的推理能力,证明了可验证奖励在 AI 训练中的巨大潜力。

背景: 从 RLHF 到可验证奖励

RLHF 的局限

传统的 RLHF (Reinforcement Learning from Human Feedback) 存在一些问题:

  • 人类标注成本高: 需要大量人工评价
  • 主观性: 不同标注者的偏好不一致
  • 难以验证: 对于复杂推理任务,人类很难准确评价

可验证奖励的优势

某些任务的正确性可以自动验证:

  • 数学问题: 答案是否正确可以通过计算验证
  • 代码问题: 代码是否能通过测试用例
  • 逻辑推理: 结论是否从前提正确推导

关键观察: 如果奖励可以自动验证,就不需要人类参与了。

GRPO: Group Relative Policy Optimization

核心思想

GRPO 是 DeepSeek 在 DeepSeek-R1 中采用的方法,它是 PPO 的简化版本:

  1. 对每个问题生成多个答案 (组里采样)
  2. 对每个答案计算奖励 (可验证任务)
  3. 用组内相对分数更新策略 (无需价值网络)

与 PPO 的对比

特征PPOGRPO
价值网络需要单独训练不需要
参考基准全局价值函数组内平均
计算复杂度高 (两个网络)低 (一个策略网络)
内存占用
稳定性训练不稳定更稳定

数学形式

GRPO 的目标函数:

J_GRPO(θ) = E[ (1/G) Σ_i ( min( r_i(θ) · A_i, clip(r_i(θ), 1-ε, 1+ε) · A_i ) ) - β · KL(π_θ || π_ref) ]

其中:
- G: 组大小 (每个问题的答案数量)
- r_i(θ): 策略比率
- A_i: 组内相对优势 (奖励 - 组平均)
- KL: 与参考策略的 KL 散度罚款

RLVR: Reinforcement Learning with Verifiable Rewards

更广义的框架

RLVR 是对 GRPO 类方法的更广义描述,强调可验证奖励这一核心特征:

RLVR 流程:
1. 采样: 策略模型生成多个答案
2. 验证: 自动验证器检查答案正确性
3. 奖励: 根据验证结果分配奖励
4. 更新: 优化策略以最大化期望奖励

应用场景

任务类型验证方式例子
数学符号验算GSM8K, MATH
代码单元测试HumanEval, SWE-bench
逻辑自动推理验证形式化逻辑
科学实验验证化学反应预测

DeepSeek-R1 的成功

训练管道

DeepSeek-R1 的训练过程展示了 GRPO/RLVR 的威力:

  1. 冷启动 (Cold Start): 用少量高质量数据训练基础模型
  2. 推理向强化学习 (RL for Reasoning): 用 GRPO 训练推理能力
  3. 收集 SFT 数据: 从 RL 训练的模型中收集高质量输出
  4. 通用强化学习: 在更广泛的任务上进一步训练

关键结果

  • 无需人类标注: 全程使用可验证奖励
  • 自然出现推理链: 模型自动学会"思考"
  • 性能突破: 在多个 benchmark 上接近或超越 o1

"Aha Moment"

DeepSeek 团队观察到一个有趣的现象:

  • 模型在训练过程中自然开始使用更长的推理链
  • 会"重新评估"自己的答案
  • 这些行为不是显式编程的,而是从可验证奖励中学习而来

与其他方法的关系

GRPO vs DPO

特征DPOGRPO
数据需求需要成对比数据只需要可验证答案
奖励来源人类偏好自动验证
适用场景通用对话推理、代码、数学
计算效率中等 (需要多次采样)

GRPO vs PPO

GRPO 可以看作 PPO 的简化和优化:

  • 去掉了价值网络
  • 用组内相对优势替代全局价值
  • 更适合可验证奖励场景

Synthesis

GRPO/RLVR 代表了 AI 训练的一个重要转向:**从"仿仿人类"到"超越人类"。当任务的正确性可以自动验证时,AI 可以通过强化学习自主探索解决方案,而不是被限制在人类标注者的认知范围内。DeepSeek-R1 的成功证明了这一方法的巨大潜力,可能会影响未来所有推理模型的训练方式。

Sources

  • DeepSeek-R1 Technical Report (2025)

  • "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models" (2024)

  • PPO 论文: "Proximal Policy Optimization Algorithms" (Schulman et al., 2017)

  • GRPO 相关技术文档

  • Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

AI Knowledge Base — 持续积累