Skip to content

定义

合成数据(Synthetic Data)是指由 AI 模型生成的训练数据,而非从人类交互中收集或从有机来源中筛选而来。在大语言模型的语境下,合成数据涵盖的范围很广:从自我生成的推理轨迹和指令遵循示例,到增强后的训练分布和模拟对话。

2024–2025 年间,随着前沿实验室意识到人类撰写的文本将成为瓶颈,合成数据的使用出现了爆发式增长。大多数新的模型改进——尤其是在推理、代码生成和指令遵循方面——如今都依赖于某种形式的合成数据 pipeline。这是一种范式转变:问题不再是我们能收集什么数据,而是我们能生成什么数据。

为什么合成数据重要

合成数据的价值建立在四大支柱之上:

人类数据的稀缺性。 据估计,按当前的训练速率,高质量的公开文本将在 2026–2028 年间被耗尽。人工标注速度慢、成本高,且在大规模下趋于饱和。合成 pipeline 是实现预训练和后训练数据集持续扩展的唯一可行路径。

成本降低。 使用 LLM 生成训练样本的成本比雇佣人工标注员低 10–100 倍。在后训练阶段,一个前沿模型可以在数小时内生成数百万条指令-回答对——这需要数千名人工标注员花费数月才能完成。

质量控制。 合成 pipeline 提供了确定性的、可量化的数据特征控制能力:难度分布、主题覆盖、输出格式和风格一致性。而人工标注则受限于标注员间的分歧、疲劳度和专业知识差距。

隐私与安全。 模型可以在不暴露任何真实用户数据的情况下,生成反映某一分布特征的训练数据,从而在不侵犯隐私的前提下实现对敏感领域的微调。

核心方法

1. 自我博弈(Self-Play)

模型生成输出,然后根据自身的标准对其进行评估、过滤或优化——类似于 AlphaGo 的自我对弈。在语言模型中,自我博弈通常涉及模型生成多个补全结果,并通过奖励模型或习得的验证器对它们进行评分,然后在得分最高的轨迹上进行训练。DeepSeek-R1 及其衍生模型在推理方面大量使用了这种模式。

2. 拒绝采样(Rejection Sampling)

一种简单但强大的方法:对每个 prompt 生成 K 个候选回答(通常 K=16 到 64),用奖励模型或 LLM-as-judge 评分,仅保留得分最高的一部分(例如前 10%)。被拒绝的样本直接丢弃。拒绝采样是大多数后训练合成数据 pipeline 的主力方法,因为它简单、可并行化,且能可靠地提升质量。

3. 指令遵循数据生成

  • Self-Instruct(Wang et al., 2022):用一组人工编写的种子指令来 prompt 一个 LLM 生成新指令,经过过滤后用于微调同一个模型。迭代这个循环可以从少量种子中引导出指令遵循能力。
  • Evol-Instruct(Xu et al., 2023):从种子指令出发,迭代地 prompt LLM 使其变得更复杂(增加约束、加深推理、要求多步求解)。Evol-Instruct 为 WizardLM 系列提供了动力,能够生成高度多样且具有挑战性的训练数据。

4. 代码数据生成

代码天然适合合成生成,因为正确性可以通过执行来验证。常见的模式有:

  • 生成编程问题 → 生成解答 → 运行测试用例 → 过滤失败样本。
  • 反向翻译(back-translate):取现有代码,生成自然语言描述,然后将二者配对。
  • 将编译器/解释器的反馈作为拒绝采样的奖励信号。

合成代码数据在 CodeLlama、DeepSeek-Coder 和 Phi 系列等模型中发挥了关键作用。

5. 推理轨迹生成

o1/R1 范式引入了一类新的合成数据:长链思维推理轨迹。模型生成扩展的逐步求解过程,通常包含验证和回溯,然后将这些轨迹用作训练数据——既可以对其中的推理链进行监督微调,也可以通过基于结果的奖励进行强化学习。这一技术被认为是 2024–2025 年间 Chain-of-Thought & Reasoning 取得显著推理进步的原因。

代表性案例

Phi 系列(Microsoft)。 完全在"教科书级"合成数据上训练的小型模型——这些精心生成的样本强调清晰性、正确性和教学价值。Phi-3(3.8B 参数)的性能可与十倍于其规模的模型相媲美,证明了合成数据的质量可以弥补模型规模和数据量的不足。

Nemotron-4(NVIDIA)。 一个大规模合成数据 pipeline,用于生成 Nemotron-4 训练语料库。NVIDIA 公开了该 pipeline 本身(NeMo Aligner)以及生成的数据集,使更广泛的社区能够复现和构建高质量的合成后训练数据。

DeepSeek-R1(DeepSeek)。 几乎完全通过在基座模型上进行纯强化学习训练而得,通过自我博弈和拒绝采样生成合成推理轨迹。R1 在数学和编程基准测试中的表现表明,模型可以在没有任何人工筛选的示范数据的情况下,自行引导出推理能力。

Llama 3(Meta)。 Meta 在后训练中大量使用了经过过滤的合成数据。他们的方法将合成指令数据与严格的奖励模型过滤以及人工复核边缘案例相结合——这是一种混合策略,能够缓解许多质量问题。

质量问题

模型崩溃(Model Autophagy Disorder, MAD)

合成数据最重大的风险是模型崩溃——当模型在由前代模型生成的数据上进行训练时,会出现性能逐步退化的现象。该问题首先由 Shumailov et al.(2023)系统性研究,并在 2024 年被多个研究组进一步扩展。模型崩溃的原因包括:

  • 数据源污染: 合成输出继承了生成模型的偏见、错误和盲点。在这些输出上训练会在代际间放大这些缺陷。
  • 多样性丧失: 合成分布倾向于集中在高概率输出(生成器的模态)附近,丢失了人类语言天然具有的长尾多样性。稀有但重要的模式会消失。
  • 尾部崩溃: 在少数群体、小众主题和不常见语言模式上的性能退化最快。模型变得越来越同质化和脆弱。

这种效应是复合型的:经过多代合成数据训练后,基准测试的错误率每个代际周期会增加 5–15%,其中事实正确性和输出多样性的损失最为严重。

其他质量问题

  • 奖励黑客(Reward Hacking): 针对合成奖励信号进行优化的模型可能会利用评分高但缺乏泛化性的狭窄模式。
  • 循环推理: 如果同一个模型负责生成、过滤和训练数据,它可能会在没有纠正的情况下强化自身的误解。
  • 事实漂移: 缺乏真实世界来源的锚定,合成数据可能延续并放大 AI Hallucination

最佳实践

  • 积极过滤。 永远不要直接在原始合成输出上训练。务必应用奖励模型评分、LLM-as-judge 评估,以及(在可能的情况下)基于执行的验证(用于代码)或事实锚定检查。
  • 与人类数据混合。 纯合成 pipeline 会退化。最佳效果来自混合数据集:人类数据提供多样性和锚定性,合成数据提供规模和覆盖范围。
  • 使用多样化的教师模型。 从不同规模、训练设置和架构的多个模型生成合成数据,以减少模式崩溃并扩大覆盖范围。
  • 迭代优化。 不要一次性生成,而应采用多轮优化:生成 → 批评 → 重新生成 → 过滤。每一轮迭代都会提升质量。
  • 为合成输出加水印。 用不可见水印标记合成数据,可以在下游检测模型崩溃并追溯数据的来源脉络。
  • 监控分布漂移。 追踪 n-gram 多样性、在保留人类文本上的困惑度以及各子群体上的基准性能,以便及早发现崩溃迹象。

与其他概念的关系

[[Distillation]](蒸馏)。 相关但不同。蒸馏通过合成输出将知识从较大的教师模型迁移到较小的学生模型。合成数据 pipeline 可能将蒸馏作为一个组件(例如 Phi-3 从 GPT-4 进行蒸馏),但合成数据本身是一个更广泛的类别,包括没有固定教师的自我博弈和增强方法。

[[Reinforcement-learning-from-human-feedback]](基于人类反馈的强化学习)。 RLHF 和合成数据 pipeline 都会生成模型回答用于训练。在 RLHF 中,回答被用来通过人类偏好训练奖励模型。在合成数据 pipeline 中,回答通常按质量过滤后直接用于监督微调。然而,RLHF 正越来越多地通过合成偏好对(AI 反馈的 RLHF,即 RLAIF)来增强。

[[Scaling-laws]](缩放定律)。 合成数据从根本上改变了缩放动态。传统的缩放定律假设数据是固定的、自然产生的。而合成数据意味着可以扩展生成过程本身——生成更多数据消耗的是算力而非人力,这改变了模型规模、算力和数据量之间的最优分配。初步的"合成数据缩放定律"(例如来自 Phi 和 DeepSeek 团队的研究)表明合成数据量与下游性能之间存在幂律关系,但收益递减的程度取决于生成质量。

AI Agents(AI Agent)。 Agent 系统会生成大量的合成交互数据:工具调用、观察轨迹、与环境的多轮对话。这些数据越来越多地被用于训练专门的 agent 模型(参见 AgentInstruct 和各种 agent 微调方案)。合成数据飞轮在这里尤为强大:agent 生成轨迹,成功的轨迹成为训练数据,模型提升后,下一代 agent 表现得更好。

LLM Evaluation(LLM 评估)。 合成数据的创建与模型评估紧密耦合。奖励模型和 LLM-as-judge 评估器本身就是合成数据生成器——它们产出的质量分数驱动着拒绝采样。构建在合成数据之上的评估基准必须经过与人类判断的仔细校验,以避免循环验证。

AI Hallucination(幻觉)。 一个关键问题:当模型生成看起来合理但实际错误的训练样本时,合成数据会放大幻觉。这在推理轨迹生成中尤为危险——模型可能生成看似可信但错误的思维链步骤,这些步骤随后被当作真值训练数据使用。

待解决问题

  • 合成数据能否完全取代人类数据来训练前沿模型? 目前的证据表明不能——混合方法在需要事实锚定、文化细微差别或创意多样性的任务上始终优于纯合成 pipeline。但这一边界正在快速变化。
  • 如何实时检测模型崩溃? 目前尚无被广泛采用的自动化崩溃预警机制。n-gram 多样性、在保留人类文本上的困惑度以及各子群体的基准得分是候选信号,但没有一项成为标准。
  • 合成数据是否存在上限? 每个知名的 pipeline 在合成数据量超过一定阈值后都表现出收益递减。这个上限究竟是根本性的(生成器分布的内禀属性)还是架构性的(当前过滤和多样性最大化技术的局限),尚无定论。
  • 最优的教师-学生差距是多少? 对于基于蒸馏的合成数据,教师应比学生领先多少?差距太小则没有提升;差距太大则产生的输出学生无法从中学习(即"蒸馏差距"问题)。

来源

  • Shumailov, I., et al. (2023). "Model Collapse: The Danger of Training on Generated Data." Nature, 2024.
  • Wang, Y., et al. (2022). "Self-Instruct: Aligning Language Models with Self-Generated Instructions."
  • Xu, C., et al. (2023). "WizardLM: Empowering Large Language Models to Follow Complex Instructions."
  • DeepSeek-AI. (2025). "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning."
  • Li, Y., et al. (2024). "Textbooks Are All You Need II: phi-1.5 Technical Report."
  • Meta AI. (2024). "The Llama 3 Herd of Models."
  • NVIDIA. (2024). "Nemotron-4 15B Technical Report."
  • Alekseev, V., et al. (2024). "Data, Data, Data: Scaling Laws for Synthetic Data in LLM Training."

AI Knowledge Base — 持续积累