Skip to content

合成数据 vs 真实数据

数据是 LLM 训练的燃料。随着高质量真实数据逐渐耗尽,合成数据(Synthetic Data)正在成为训练 pipeline 的重要组成部分。从 Microsoft Phi 的"教科书级"合成数据到 DeepSeek-R1 的自我对弈,合成数据的质量和规模正在快速逼近甚至超越真实数据。本页对比两种数据在模型训练中的差异与权衡。

对比概览

维度真实数据合成数据
来源互联网、书籍、代码、对话AI 生成、规则模拟、自我对弈
成本采集/清洗成本高生成成本低,但质量把控成本高
规模有限(高质量数据稀缺)理论上无限
质量不均匀(含噪声、垃圾信息)可控(可设计质量标准)
多样性自然分布(含长尾)依赖生成策略
偏差反映真实世界偏差可设计以减少偏差
隐私隐私风险无隐私问题
版权存在法律风险无版权问题
可解释性高(可追溯生成逻辑)

真实数据的挑战

高质量数据枯竭

  • Common Crawl:海量但质量参差不齐
  • 高质量子集:WebText、C4、RefinedWeb 等经过筛选
  • 瓶颈
    • 人类产生的文本总量有限
    • 重复内容多
    • 低质量内容占比高

数据污染

  • 问题:评测基准数据混入训练集
  • 影响:基准分数虚高
  • 例子
    • GPT-3 训练数据包含部分测试集
    • 代码模型在 GitHub 上训练时见过 LeetCode 题

法律与伦理风险

  • 版权:书籍、新闻、代码的版权问题
  • 隐私:个人敏感信息
  • GDPR:数据使用合规性
  • 案例
    • 《纽约时报》诉 OpenAI
    • GitHub Copilot 版权争议

合成数据的优势

质量可控

Microsoft Phi 系列 证明高质量合成数据可以训练出小参数强能力模型:

  • "教科书级"数据:由 GPT-4 生成的高质量教育内容
  • 过滤策略
    • 知识密度筛选
    • 教育价值评估
    • 去重和多样性保证
  • 结果:Phi-4 (5.6B) 在数学推理上超越部分 70B 模型

无限规模

DeepSeek-R1 的自我对弈机制:

  • RLVR(Reinforcement Learning with Verifiable Rewards)
  • 模型生成问题 → 自我验证 → 筛选高质量数据
  • 形成数据飞轮:更好的模型 → 更好的数据 → 更好的模型

特定任务优化

合成数据可针对特定能力定制:

能力合成方法代表工作
数学推理模板生成 + 验证GSM8K 增强
代码能力执行反馈过滤CodeExercises
工具调用API 模拟ToolBench
多轮对话角色扮演Synthetic Conversations
安全对齐对抗生成Constitutional AI 数据

合成数据的局限

模型崩溃

Model Collapse 是合成数据的核心风险:

  • 机制:用模型生成的数据训练新模型 → 逐步丢失尾部信息
  • 表现
    • 多样性下降
    • 幻觉增加
    • 对真实世界分布的偏离
  • 缓解
    • 混合真实数据(建议 >50%)
    • 多代模型数据混合
    • 质量控制过滤

能力天花板

  • 问题:合成数据难以超越生成模型的能力
  • 例子:用 GPT-4 生成的数据训练出的模型通常弱于 GPT-4
  • 突破:需要真实数据或更强的生成模型

分布偏差

  • 问题:合成数据可能过度代表某些模式
  • 表现
    • 语言风格单一
    • 知识覆盖不全
    • 文化视角偏差

混合策略

最佳实践

当前主流的训练数据策略是混合使用

预训练:
  70-90% 真实数据(高质量筛选)
  10-30% 合成数据(补充特定领域)

微调/对齐:
  50-70% 真实数据(人类偏好)
  30-50% 合成数据(规模化扩展)

代表案例

模型合成数据策略效果
Phi-4高质量教科书级合成小模型大能力
DeepSeek-R1RLVR 自我对弈推理能力突破
Llama 3数据质量分类器筛选高质量预训练
GPT-4o多模态合成数据视觉能力增强

决策矩阵

场景推荐理由
通用预训练真实数据为主保持分布真实性
特定能力提升合成数据为主可控、可规模化
隐私敏感领域合成数据无隐私风险
安全对齐混合真实偏好 + 规模化合成
小模型训练高质量合成数据效率优先
前沿能力探索真实数据突破天花板

趋势观察

数据质量 > 数据数量

行业共识从"更多数据"转向"更好数据":

  • 数据筛选:质量分类器、知识密度评估
  • 数据混合:最优比例搜索
  • 课程学习:从简单到复杂的数据排序

自我对弈数据飞轮

DeepSeek-R1 展示了新的数据生成范式:

基础模型 → 生成数据 → 验证筛选 → 训练新模型
     ↑___________________________________|

这种飞轮可能减少对真实数据的依赖。

多模态合成数据

从文本向多模态扩展:

  • 图像-文本对:DALL-E / Stable Diffusion 生成
  • 视频数据:Sora 生成训练数据
  • 代码-执行对:沙箱执行验证

相关页面

参考来源

  • Gunasekar et al. (2023). "Textbooks Are All You Need." (Phi)

  • DeepSeek (2025). "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning."

  • Shumailov et al. (2023). "The Curse of Recursion: Training on Generated Data Makes Models Forget."

  • Liu et al. (2024). "What Makes Good Data for Alignment?"

  • Touvron et al. (2023). "Llama 2: Open Foundation and Fine-Tuned Chat Models."

  • Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

AI Knowledge Base — 持续积累