合成数据生成方法对比

合成数据（Synthetic Data）已成为大模型训练 pipeline 的核心组成部分。从 Microsoft Phi 的"教科书级"合成数据到 DeepSeek-R1 的自我对弈，不同生成方法在质量、成本、可扩展性和适用场景上差异显著。本页对比当前主流的合成数据生成方法。

方法概览

方法	核心机制	质量水平	成本	可扩展性	主要风险
Self-Play	模型生成 → 自我验证 → 迭代优化	高	中	高	验证器质量瓶颈
Rejection Sampling	生成 K 个候选 → 筛选 Top-N	中高	中	高	多样性损失
Evol-Instruct	迭代增加指令复杂度	高	中	中	复杂度失控
Distillation	大模型生成 → 小模型学习	中	低	极高	能力天花板
Constitutional AI	原则约束下的对抗生成	高	高	中	原则设计偏差
Self-Instruct	种子指令 → 模型生成新指令	中	低	高	模式重复
RLVR (Verifiable Rewards)	强化学习 + 可验证奖励	极高	高	中	奖励黑客
Simulation	规则/物理引擎模拟数据	中	高	中	仿真-现实差距

核心方法详解

1. Self-Play（自我对弈）

原理：模型生成输出，然后根据可验证的标准进行自我评估和优化，形成数据飞轮。

基础模型 → 生成问题/答案 → 自我验证 → 筛选高质量 → 训练新模型
     ↑_________________________________________________|

代表工作：

DeepSeek-R1：通过 RLVR 自我对弈生成推理轨迹，在数学和代码上达到 SOTA
AlphaGo/AlphaZero：围棋自我对弈的经典范式

优势：

不依赖人工标注
可针对特定能力（推理、代码）定向优化
形成数据飞轮，越训练质量越高

局限：

需要高质量的验证器（Verifier）
验证错误会被放大
仅适用于可验证的领域（数学、代码）

2. Rejection Sampling（拒绝采样）

原理：对每个 prompt 生成 K 个候选回答（通常 K=16~64），用奖励模型或规则筛选保留 Top-N。

python

# 伪代码
candidates = [model.generate(prompt) for _ in range(K)]
scores = [reward_model(c) for c in candidates]
best = sorted(zip(candidates, scores), key=lambda x: x[1])[:N]

代表工作：

Llama 3 后训练：大规模拒绝采样提升指令遵循能力
大多数 SFT pipeline：拒绝采样是后训练数据生成的主力方法

优势：

简单、可并行化、可靠性高
与任何生成模型兼容
可精确控制数据质量分布

局限：

计算浪费（生成 K 个只保留 N 个）
多样性损失（倾向于高概率输出）
奖励模型质量决定上限

3. Evol-Instruct（指令进化）

原理：从种子指令出发，迭代地增加复杂度（增加约束、加深推理、要求多步求解）。

种子指令 → 增加约束 → 增加推理深度 → 多步求解 → 高难度指令

代表工作：

WizardLM / WizardCoder：Evol-Instruct 驱动的指令遵循模型
Meta Math：数学指令的迭代进化

优势：

生成高度多样且具有挑战性的训练数据
可控制难度分布
适合能力提升型训练

局限：

进化过程可能产生无效指令
复杂度可能超出模型能力范围
需要精心设计的进化规则

4. Distillation（知识蒸馏）

原理：使用强大的教师模型（如 GPT-4）生成高质量输出，训练较小的学生模型模仿。

教师模型（大）→ 生成高质量数据 → 学生模型（小）→ 学习模仿

代表工作：

Microsoft Phi 系列：完全在 GPT-4 生成的"教科书级"数据上训练
Alpaca：GPT-3.5 生成的 52K 指令数据
TinyLlama / Phi-4：小模型通过蒸馏达到大模型能力

优势：

成本低（无需人工标注）
可扩展性极高
小模型可获得大模型能力

局限：

能力天花板：学生通常无法超越教师
蒸馏差距：教师太强时学生无法学习
模式崩溃：多代蒸馏后质量退化

5. Constitutional AI（宪法 AI）

原理：通过一组原则（"宪法"）约束模型行为，模型自我批评和修正以符合原则。

生成回答 → 自我批评（是否违反宪法？）→ 修正回答 → 训练

代表工作：

Anthropic Claude：Constitutional AI 是核心训练方法
RLAIF：基于 AI 反馈的强化学习

优势：

可精确控制模型行为
减少对人工反馈的依赖
适合安全对齐

局限：

宪法原则设计困难
可能过度约束创造力
计算成本高（需要多轮生成-批评-修正）

6. RLVR（Reinforcement Learning with Verifiable Rewards）

原理：在可验证的领域（数学、代码），用规则而非奖励模型提供强化学习信号。

模型生成答案 → 规则验证（正确/错误）→ RL 优化 → 提升准确率

代表工作：

DeepSeek-R1：纯 RLVR 训练，无需 SFT 冷启动
OpenAI o1 / o3：推理能力的 RLVR 训练

优势：

奖励信号无偏差（规则验证 = ground truth）
可发现新的推理策略
适合推理和代码领域

局限：

仅适用于可验证领域
需要设计验证规则
训练不稳定

方法组合策略

实际训练中，多种方法组合使用：

训练阶段	推荐方法组合	理由
预训练	真实数据（70-90%）+ 合成数据（10-30%）	保持分布真实性
SFT 冷启动	Distillation + Rejection Sampling	快速获得基础能力
能力提升	Evol-Instruct + Self-Play	增加难度和多样性
推理强化	RLVR + Self-Play	可验证奖励 + 自我优化
安全对齐	Constitutional AI + RLAIF	原则约束 + AI 反馈
领域适配	Distillation + Simulation	教师知识 + 领域模拟

质量与风险控制

模型崩溃（Model Collapse）

当模型在由前代模型生成的数据上训练时，性能逐步退化：

机制：合成数据继承并放大生成模型的偏见和错误
表现：多样性下降、幻觉增加、尾部信息丢失
缓解：
- 混合 >50% 真实数据
- 多代模型数据混合
- 严格的质量过滤

最佳实践

积极过滤：永远不要直接在原始合成输出上训练
与人类数据混合：纯合成 pipeline 会退化
多样化教师模型：使用不同规模、架构的多个模型生成
迭代优化：生成 → 批评 → 重新生成 → 过滤
监控分布漂移：追踪 n-gram 多样性、困惑度、子群体性能

决策矩阵

场景	推荐方法	理由
快速获得基础指令能力	Distillation	成本低、见效快
提升推理能力	RLVR + Self-Play	可验证、可自我优化
增加指令难度和多样性	Evol-Instruct	可控的复杂度增长
安全对齐	Constitutional AI	原则约束、可解释
代码数据生成	Self-Play + 执行验证	正确性可自动验证
小模型训练	高质量 Distillation	数据效率优先
多模态数据	Simulation + Distillation	物理模拟 + 教师指导
隐私敏感领域	Simulation	无真实数据泄露风险

参考来源

DeepSeek-AI. (2025). "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning."
Gunasekar et al. (2023). "Textbooks Are All You Need." (Phi)
Wang et al. (2022). "Self-Instruct: Aligning Language Models with Self-Generated Instructions."
Xu et al. (2023). "WizardLM: Empowering Large Language Models to Follow Complex Instructions."
Bai et al. (2022). "Constitutional AI: Harmlessness from AI Feedback."
Shumailov et al. (2023). "The Curse of Recursion: Training on Generated Data Makes Models Forget."
Meta AI. (2024). "The Llama 3 Herd of Models."

合成数据生成方法对比 ​

方法概览 ​

核心方法详解 ​

1. Self-Play（自我对弈） ​

2. Rejection Sampling（拒绝采样） ​

3. Evol-Instruct（指令进化） ​

4. Distillation（知识蒸馏） ​

5. Constitutional AI（宪法 AI） ​

6. RLVR（Reinforcement Learning with Verifiable Rewards） ​

方法组合策略 ​

质量与风险控制 ​

模型崩溃（Model Collapse） ​

最佳实践 ​

决策矩阵 ​

相关页面 ​

参考来源 ​

合成数据生成方法对比

方法概览

核心方法详解

1. Self-Play（自我对弈）

2. Rejection Sampling（拒绝采样）

3. Evol-Instruct（指令进化）

4. Distillation（知识蒸馏）

5. Constitutional AI（宪法 AI）

6. RLVR（Reinforcement Learning with Verifiable Rewards）

方法组合策略

质量与风险控制

模型崩溃（Model Collapse）

最佳实践

决策矩阵

相关页面

参考来源