Appearance
合成数据 vs 真实数据
数据是 LLM 训练的燃料。随着高质量真实数据逐渐耗尽,合成数据(Synthetic Data)正在成为训练 pipeline 的重要组成部分。从 Microsoft Phi 的"教科书级"合成数据到 DeepSeek-R1 的自我对弈,合成数据的质量和规模正在快速逼近甚至超越真实数据。本页对比两种数据在模型训练中的差异与权衡。
对比概览
| 维度 | 真实数据 | 合成数据 |
|---|---|---|
| 来源 | 互联网、书籍、代码、对话 | AI 生成、规则模拟、自我对弈 |
| 成本 | 采集/清洗成本高 | 生成成本低,但质量把控成本高 |
| 规模 | 有限(高质量数据稀缺) | 理论上无限 |
| 质量 | 不均匀(含噪声、垃圾信息) | 可控(可设计质量标准) |
| 多样性 | 自然分布(含长尾) | 依赖生成策略 |
| 偏差 | 反映真实世界偏差 | 可设计以减少偏差 |
| 隐私 | 隐私风险 | 无隐私问题 |
| 版权 | 存在法律风险 | 无版权问题 |
| 可解释性 | 低 | 高(可追溯生成逻辑) |
真实数据的挑战
高质量数据枯竭
- Common Crawl:海量但质量参差不齐
- 高质量子集:WebText、C4、RefinedWeb 等经过筛选
- 瓶颈:
- 人类产生的文本总量有限
- 重复内容多
- 低质量内容占比高
数据污染
- 问题:评测基准数据混入训练集
- 影响:基准分数虚高
- 例子:
- GPT-3 训练数据包含部分测试集
- 代码模型在 GitHub 上训练时见过 LeetCode 题
法律与伦理风险
- 版权:书籍、新闻、代码的版权问题
- 隐私:个人敏感信息
- GDPR:数据使用合规性
- 案例:
- 《纽约时报》诉 OpenAI
- GitHub Copilot 版权争议
合成数据的优势
质量可控
Microsoft Phi 系列 证明高质量合成数据可以训练出小参数强能力模型:
- "教科书级"数据:由 GPT-4 生成的高质量教育内容
- 过滤策略:
- 知识密度筛选
- 教育价值评估
- 去重和多样性保证
- 结果:Phi-4 (5.6B) 在数学推理上超越部分 70B 模型
无限规模
DeepSeek-R1 的自我对弈机制:
- RLVR(Reinforcement Learning with Verifiable Rewards)
- 模型生成问题 → 自我验证 → 筛选高质量数据
- 形成数据飞轮:更好的模型 → 更好的数据 → 更好的模型
特定任务优化
合成数据可针对特定能力定制:
| 能力 | 合成方法 | 代表工作 |
|---|---|---|
| 数学推理 | 模板生成 + 验证 | GSM8K 增强 |
| 代码能力 | 执行反馈过滤 | CodeExercises |
| 工具调用 | API 模拟 | ToolBench |
| 多轮对话 | 角色扮演 | Synthetic Conversations |
| 安全对齐 | 对抗生成 | Constitutional AI 数据 |
合成数据的局限
模型崩溃
Model Collapse 是合成数据的核心风险:
- 机制:用模型生成的数据训练新模型 → 逐步丢失尾部信息
- 表现:
- 多样性下降
- 幻觉增加
- 对真实世界分布的偏离
- 缓解:
- 混合真实数据(建议 >50%)
- 多代模型数据混合
- 质量控制过滤
能力天花板
- 问题:合成数据难以超越生成模型的能力
- 例子:用 GPT-4 生成的数据训练出的模型通常弱于 GPT-4
- 突破:需要真实数据或更强的生成模型
分布偏差
- 问题:合成数据可能过度代表某些模式
- 表现:
- 语言风格单一
- 知识覆盖不全
- 文化视角偏差
混合策略
最佳实践
当前主流的训练数据策略是混合使用:
预训练:
70-90% 真实数据(高质量筛选)
10-30% 合成数据(补充特定领域)
微调/对齐:
50-70% 真实数据(人类偏好)
30-50% 合成数据(规模化扩展)代表案例
| 模型 | 合成数据策略 | 效果 |
|---|---|---|
| Phi-4 | 高质量教科书级合成 | 小模型大能力 |
| DeepSeek-R1 | RLVR 自我对弈 | 推理能力突破 |
| Llama 3 | 数据质量分类器筛选 | 高质量预训练 |
| GPT-4o | 多模态合成数据 | 视觉能力增强 |
决策矩阵
| 场景 | 推荐 | 理由 |
|---|---|---|
| 通用预训练 | 真实数据为主 | 保持分布真实性 |
| 特定能力提升 | 合成数据为主 | 可控、可规模化 |
| 隐私敏感领域 | 合成数据 | 无隐私风险 |
| 安全对齐 | 混合 | 真实偏好 + 规模化合成 |
| 小模型训练 | 高质量合成 | 数据效率优先 |
| 前沿能力探索 | 真实数据 | 突破天花板 |
趋势观察
数据质量 > 数据数量
行业共识从"更多数据"转向"更好数据":
- 数据筛选:质量分类器、知识密度评估
- 数据混合:最优比例搜索
- 课程学习:从简单到复杂的数据排序
自我对弈数据飞轮
DeepSeek-R1 展示了新的数据生成范式:
基础模型 → 生成数据 → 验证筛选 → 训练新模型
↑___________________________________|这种飞轮可能减少对真实数据的依赖。
多模态合成数据
从文本向多模态扩展:
- 图像-文本对:DALL-E / Stable Diffusion 生成
- 视频数据:Sora 生成训练数据
- 代码-执行对:沙箱执行验证
相关页面
- Synthetic Data — 合成数据技术原理
- Knowledge Distillation — 知识蒸馏方法
- Fine-tuning — 模型微调技术
- Scaling Laws — 数据规模与模型性能关系
- Microsoft (Phi) — Microsoft Phi 系列模型
- DeepSeek — DeepSeek-R1 自我对弈机制
参考来源
Gunasekar et al. (2023). "Textbooks Are All You Need." (Phi)
DeepSeek (2025). "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning."
Shumailov et al. (2023). "The Curse of Recursion: Training on Generated Data Makes Models Forget."
Liu et al. (2024). "What Makes Good Data for Alignment?"
Touvron et al. (2023). "Llama 2: Open Foundation and Fine-Tuned Chat Models."
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程