GRPO / RLVR

GRPO (Group Relative Policy Optimization) 和 RLVR (Reinforcement Learning with Verifiable Rewards) 是 2024-2025 年推理模型训练领域最重要的突破之一。DeepSeek-R1 通过这些方法在无需人类标注的情况下实现了强大的推理能力，证明了可验证奖励在 AI 训练中的巨大潜力。

背景: 从 RLHF 到可验证奖励

RLHF 的局限

传统的 RLHF (Reinforcement Learning from Human Feedback) 存在一些问题：

人类标注成本高: 需要大量人工评价
主观性: 不同标注者的偏好不一致
难以验证: 对于复杂推理任务，人类很难准确评价

可验证奖励的优势

某些任务的正确性可以自动验证：

数学问题: 答案是否正确可以通过计算验证
代码问题: 代码是否能通过测试用例
逻辑推理: 结论是否从前提正确推导

关键观察: 如果奖励可以自动验证，就不需要人类参与了。

GRPO: Group Relative Policy Optimization

核心思想

GRPO 是 DeepSeek 在 DeepSeek-R1 中采用的方法，它是 PPO 的简化版本：

对每个问题生成多个答案 (组里采样)
对每个答案计算奖励 (可验证任务)
用组内相对分数更新策略 (无需价值网络)

与 PPO 的对比

特征	PPO	GRPO
价值网络	需要单独训练	不需要
参考基准	全局价值函数	组内平均
计算复杂度	高 (两个网络)	低 (一个策略网络)
内存占用	大	小
稳定性	训练不稳定	更稳定

数学形式

GRPO 的目标函数：

J_GRPO(θ) = E[ (1/G) Σ_i ( min( r_i(θ) · A_i, clip(r_i(θ), 1-ε, 1+ε) · A_i ) ) - β · KL(π_θ || π_ref) ]

其中:
- G: 组大小 (每个问题的答案数量)
- r_i(θ): 策略比率
- A_i: 组内相对优势 (奖励 - 组平均)
- KL: 与参考策略的 KL 散度罚款

RLVR: Reinforcement Learning with Verifiable Rewards

更广义的框架

RLVR 是对 GRPO 类方法的更广义描述，强调可验证奖励这一核心特征：

RLVR 流程:
1. 采样: 策略模型生成多个答案
2. 验证: 自动验证器检查答案正确性
3. 奖励: 根据验证结果分配奖励
4. 更新: 优化策略以最大化期望奖励

应用场景

任务类型	验证方式	例子
数学	符号验算	GSM8K, MATH
代码	单元测试	HumanEval, SWE-bench
逻辑	自动推理验证	形式化逻辑
科学	实验验证	化学反应预测

DeepSeek-R1 的成功

训练管道

DeepSeek-R1 的训练过程展示了 GRPO/RLVR 的威力：

冷启动 (Cold Start): 用少量高质量数据训练基础模型
推理向强化学习 (RL for Reasoning): 用 GRPO 训练推理能力
收集 SFT 数据: 从 RL 训练的模型中收集高质量输出
通用强化学习: 在更广泛的任务上进一步训练

关键结果

无需人类标注: 全程使用可验证奖励
自然出现推理链: 模型自动学会"思考"
性能突破: 在多个 benchmark 上接近或超越 o1

"Aha Moment"

DeepSeek 团队观察到一个有趣的现象：

模型在训练过程中自然开始使用更长的推理链
会"重新评估"自己的答案
这些行为不是显式编程的，而是从可验证奖励中学习而来

与其他方法的关系

GRPO vs DPO

特征	DPO	GRPO
数据需求	需要成对比数据	只需要可验证答案
奖励来源	人类偏好	自动验证
适用场景	通用对话	推理、代码、数学
计算效率	高	中等 (需要多次采样)

GRPO vs PPO

GRPO 可以看作 PPO 的简化和优化：

去掉了价值网络
用组内相对优势替代全局价值
更适合可验证奖励场景

Synthesis

GRPO/RLVR 代表了 AI 训练的一个重要转向：**从"仿仿人类"到"超越人类"。当任务的正确性可以自动验证时，AI 可以通过强化学习自主探索解决方案，而不是被限制在人类标注者的认知范围内。DeepSeek-R1 的成功证明了这一方法的巨大潜力，可能会影响未来所有推理模型的训练方式。

RLHF — RLHF 技术
DPO & Preference Alignment — DPO 偏好对齐
Test-Time Compute / Inference-Time Scaling — 测试时计算
DeepSeek — DeepSeek 公司与模型
Chain-of-Thought & Reasoning — 思维链推理

Sources

DeepSeek-R1 Technical Report (2025)
"DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models" (2024)
PPO 论文: "Proximal Policy Optimization Algorithms" (Schulman et al., 2017)
GRPO 相关技术文档
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

GRPO / RLVR ​

背景: 从 RLHF 到可验证奖励 ​

RLHF 的局限 ​

可验证奖励的优势 ​

GRPO: Group Relative Policy Optimization ​

核心思想 ​

与 PPO 的对比 ​

数学形式 ​

RLVR: Reinforcement Learning with Verifiable Rewards ​

更广义的框架 ​

应用场景 ​

DeepSeek-R1 的成功 ​

训练管道 ​

关键结果 ​

"Aha Moment" ​

与其他方法的关系 ​

GRPO vs DPO ​

GRPO vs PPO ​

Synthesis ​

Related Pages ​

Sources ​