合成数据 vs 真实数据

数据是 LLM 训练的燃料。随着高质量真实数据逐渐耗尽，合成数据（Synthetic Data）正在成为训练 pipeline 的重要组成部分。从 Microsoft Phi 的"教科书级"合成数据到 DeepSeek-R1 的自我对弈，合成数据的质量和规模正在快速逼近甚至超越真实数据。本页对比两种数据在模型训练中的差异与权衡。

对比概览

维度	真实数据	合成数据
来源	互联网、书籍、代码、对话	AI 生成、规则模拟、自我对弈
成本	采集/清洗成本高	生成成本低，但质量把控成本高
规模	有限（高质量数据稀缺）	理论上无限
质量	不均匀（含噪声、垃圾信息）	可控（可设计质量标准）
多样性	自然分布（含长尾）	依赖生成策略
偏差	反映真实世界偏差	可设计以减少偏差
隐私	隐私风险	无隐私问题
版权	存在法律风险	无版权问题
可解释性	低	高（可追溯生成逻辑）

真实数据的挑战

高质量数据枯竭

Common Crawl：海量但质量参差不齐
高质量子集：WebText、C4、RefinedWeb 等经过筛选
瓶颈：
- 人类产生的文本总量有限
- 重复内容多
- 低质量内容占比高

数据污染

问题：评测基准数据混入训练集
影响：基准分数虚高
例子：
- GPT-3 训练数据包含部分测试集
- 代码模型在 GitHub 上训练时见过 LeetCode 题

法律与伦理风险

版权：书籍、新闻、代码的版权问题
隐私：个人敏感信息
GDPR：数据使用合规性
案例：
- 《纽约时报》诉 OpenAI
- GitHub Copilot 版权争议

合成数据的优势

质量可控

Microsoft Phi 系列 证明高质量合成数据可以训练出小参数强能力模型：

"教科书级"数据：由 GPT-4 生成的高质量教育内容
过滤策略：
- 知识密度筛选
- 教育价值评估
- 去重和多样性保证
结果：Phi-4 (5.6B) 在数学推理上超越部分 70B 模型

无限规模

DeepSeek-R1 的自我对弈机制：

RLVR（Reinforcement Learning with Verifiable Rewards）
模型生成问题 → 自我验证 → 筛选高质量数据
形成数据飞轮：更好的模型 → 更好的数据 → 更好的模型

特定任务优化

合成数据可针对特定能力定制：

能力	合成方法	代表工作
数学推理	模板生成 + 验证	GSM8K 增强
代码能力	执行反馈过滤	CodeExercises
工具调用	API 模拟	ToolBench
多轮对话	角色扮演	Synthetic Conversations
安全对齐	对抗生成	Constitutional AI 数据

合成数据的局限

模型崩溃

Model Collapse 是合成数据的核心风险：

机制：用模型生成的数据训练新模型 → 逐步丢失尾部信息
表现：
- 多样性下降
- 幻觉增加
- 对真实世界分布的偏离
缓解：
- 混合真实数据（建议 >50%）
- 多代模型数据混合
- 质量控制过滤

能力天花板

问题：合成数据难以超越生成模型的能力
例子：用 GPT-4 生成的数据训练出的模型通常弱于 GPT-4
突破：需要真实数据或更强的生成模型

分布偏差

问题：合成数据可能过度代表某些模式
表现：
- 语言风格单一
- 知识覆盖不全
- 文化视角偏差

混合策略

最佳实践

当前主流的训练数据策略是混合使用：

预训练：
  70-90% 真实数据（高质量筛选）
  10-30% 合成数据（补充特定领域）

微调/对齐：
  50-70% 真实数据（人类偏好）
  30-50% 合成数据（规模化扩展）

代表案例

模型	合成数据策略	效果
Phi-4	高质量教科书级合成	小模型大能力
DeepSeek-R1	RLVR 自我对弈	推理能力突破
Llama 3	数据质量分类器筛选	高质量预训练
GPT-4o	多模态合成数据	视觉能力增强

决策矩阵

场景	推荐	理由
通用预训练	真实数据为主	保持分布真实性
特定能力提升	合成数据为主	可控、可规模化
隐私敏感领域	合成数据	无隐私风险
安全对齐	混合	真实偏好 + 规模化合成
小模型训练	高质量合成	数据效率优先
前沿能力探索	真实数据	突破天花板

趋势观察

数据质量 > 数据数量

行业共识从"更多数据"转向"更好数据"：

数据筛选：质量分类器、知识密度评估
数据混合：最优比例搜索
课程学习：从简单到复杂的数据排序

自我对弈数据飞轮

DeepSeek-R1 展示了新的数据生成范式：

基础模型 → 生成数据 → 验证筛选 → 训练新模型
     ↑___________________________________|

这种飞轮可能减少对真实数据的依赖。

多模态合成数据

从文本向多模态扩展：

图像-文本对：DALL-E / Stable Diffusion 生成
视频数据：Sora 生成训练数据
代码-执行对：沙箱执行验证

参考来源

Gunasekar et al. (2023). "Textbooks Are All You Need." (Phi)
DeepSeek (2025). "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning."
Shumailov et al. (2023). "The Curse of Recursion: Training on Generated Data Makes Models Forget."
Liu et al. (2024). "What Makes Good Data for Alignment?"
Touvron et al. (2023). "Llama 2: Open Foundation and Fine-Tuned Chat Models."
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

合成数据 vs 真实数据 ​

对比概览 ​

真实数据的挑战 ​

高质量数据枯竭 ​

数据污染 ​

法律与伦理风险 ​

合成数据的优势 ​

质量可控 ​

无限规模 ​

特定任务优化 ​

合成数据的局限 ​

模型崩溃 ​

能力天花板 ​

分布偏差 ​

混合策略 ​

最佳实践 ​

代表案例 ​

决策矩阵 ​

趋势观察 ​

数据质量 > 数据数量 ​

自我对弈数据飞轮 ​

多模态合成数据 ​

相关页面 ​

参考来源 ​