Skip to content

生成式 AI 三大范式

生成式 AI 的核心是学习数据分布并从中采样生成新数据。当前主流有三大范式:自回归模型(Autoregressive)扩散模型(Diffusion)流匹配(Flow Matching)。它们分别在文本、图像、视频等领域各有优势,且正在趋向混合架构。

自回归模型(Autoregressive Models)

核心原理

自回归模型将联合概率分解为条件概率的乘积,通过逐 token 预测(Next Token Prediction)的方式生成数据:

latex
p(x) = \prod_{t=1}^{T} p(x_t | x_1, x_2, ..., x_{t-1})

基于 Transformer Decoder 架构,通过**因果掩码(Causal Masking)**确保模型在预测位置 t 时只能看到之前的信息。每次只生成一个 token,且依赖于之前生成的所有 token。

代表模型

模型年份特点
GPT 系列2018-2024OpenAI 大规模语言模型,确立了自回归在 NLP 中的主导地位
LLaMA / Mistral2023-2024开源自回归模型代表
DALL-E / Parti2021-2022将图像离散化为 token 序列进行自回归生成
Sora2024时空 patch 的自回归/扩散混合架构
VAR2024字节跳动提出的多尺度视觉自回归模型

优缺点

  • 优点:训练极其稳定(简单的交叉熵损失)、概率建模精确、文本生成质量极高、天然适合离散序列数据
  • 缺点:生成速度慢(必须逐 token 生成,无法并行)、误差累积、不适合连续高维数据

扩散模型(Diffusion Models)

核心原理

扩散模型通过逐步去噪过程生成数据,包含两个过程:

  1. 前向过程(Forward/Noising):从数据 x₀ 开始,逐步添加高斯噪声,经过 T 步后变为纯噪声
  2. 反向过程(Reverse/Denoising):学习神经网络来逆转扩散过程,从噪声中恢复数据

训练目标通常是预测噪声(ε-prediction):

latex
\mathcal{L} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_\theta(x_t, t)||^2 \right]

关键变体

变体论文核心贡献
DDPMHo et al., NeurIPS 2020简化原始扩散模型,证明与 Score Matching 等价
Score-BasedSong et al., ICLR 2021将扩散视为 SDE,学习 Score 函数
Stable DiffusionRombach et al., CVPR 2022在**潜空间(Latent Space)**而非像素空间进行扩散
DDIMSong et al., ICLR 2021确定性采样,加速推理
Consistency ModelsSong et al., ICML 2023支持单步生成

代表模型

  • Stable Diffusion 1.x/2.x(2022)— 潜空间扩散,开源图像生成的里程碑
  • Imagen(2022)— Google 的像素级文本到图像模型
  • DALL-E 2(2022)— OpenAI 的 unCLIP 架构
  • SDXL(2023)— Stability AI 的高质量图像生成

优缺点

  • 优点:生成质量极高、模式覆盖好、训练稳定(无需对抗训练)、条件生成灵活
  • 缺点:采样速度慢(20-50 步)、训练计算量大、主要适合连续数据

流匹配 / 整流流(Flow Matching / Rectified Flow)

核心原理

Flow Matching 是一种基于**连续归一化流(Continuous Normalizing Flows, CNF)的生成建模方法,通过学习向量场(Vector Field)**实现高效生成。

不同于扩散模型学习去噪过程,Flow Matching 直接学习定义了从源分布(高斯噪声)到目标分布(数据分布)的最优传输路径的向量场:

latex
\frac{dx_t}{dt} = v_t(x_t), \quad t \in [0,1]

**条件流匹配(Conditional Flow Matching)**的关键技巧是引入条件路径,将训练目标简化为回归问题:

latex
\mathcal{L}_{\text{FM}} = \mathbb{E}_{t, x_1, x_t} \left[ ||v_\theta(x_t, t) - u_t(x_t|x_1)||^2 \right]

Rectified Flow(整流流)

  • 论文:Liu et al., "Flow Straight and Fast", ICLR 2023
  • 核心:学习直线路径(常速度向量场),使得 ODE 轨迹为直线
  • 优势:直线路径意味着可以用极少步数(甚至 1 步)完成采样

与扩散模型的关系

特性扩散模型 (DDPM)Flow Matching
数学框架SDE / 离散马尔可夫链ODE / 连续流
学习对象Score 函数 / 噪声向量场 (Vector Field)
传输路径曲线路径直线路径(Rectified Flow)
采样步数20-50 步1-10 步
训练稳定性需要噪声调度设计更稳定,无需复杂调度

理论等价性:在特定条件下,概率流 ODE 与 Flow Matching 等价。Flow Matching 可以看作扩散模型的“ODE 版本”的更高效实现。

代表模型

模型年份特点
Flow Matching (Lipman)2022-2023奠基性理论工作,证明了 CFM 的高效性
Rectified Flow2023学习直线路径,支持快速采样
Stable Diffusion 32024Stability AI 首次采用 Flow Matching 架构
FLUX.12024Black Forest Labs(原 SD 团队)的 SOTA 模型

SD3 的 Flow Matching 架构

SD3 的关键改进:

  • Multimodal Diffusion Transformer (MMDiT):分离图像和文本 token 的注意力
  • Flow Matching 训练:替代传统的 DDPM 训练目标
  • Rectified Flow 采样:支持更少的采样步数(4-50 步可调)
  • Scaling:8B 参数规模,显著提升生成质量

FLUX.1 技术特点

Black Forest Labs(由 Stable Diffusion 原团队创立)推出的 FLUX.1:

  • 基于改进的 Rectified Flow
  • 结合 Transformer 和 Flow Matching 的优势
  • 在图像质量、提示遵循、文本渲染等方面达到 SOTA
  • FLUX.1 [dev] 和 [schnell] 版本开源

优缺点

  • 优点:采样速度快(1-10 步)、训练更稳定、理论基础强、与 Transformer 兼容、灵活性高
  • 缺点:相对较新、生态系统不如扩散模型成熟、单步质量仍有提升空间

三种范式对比

综合对比表

维度自回归扩散模型Flow Matching
核心机制逐 token 条件概率逐步去噪学习最优传输向量场
数学框架链式法则SDE / Score MatchingODE / Continuous Flow
代表模型GPT-4, LLaMA, DALL-EStable Diffusion, ImagenSD3, FLUX.1
训练稳定性⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
采样速度⭐⭐ 慢(串行)⭐⭐⭐ 较慢(20-50 步)⭐⭐⭐⭐⭐ 快(1-10 步)
生成质量⭐⭐⭐⭐⭐ 文本极佳⭐⭐⭐⭐⭐ 图像极佳⭐⭐⭐⭐⭐ 图像极佳
并行生成❌ 不支持⚠️ 理论支持但需多步✅ 支持,且步数少
数据类型离散序列(文本)连续数据(图像/音频)连续数据(图像/音频)

应用场景选型

场景推荐范式原因
文本生成 / 对话自回归天然适合离散序列,质量最高
代码生成自回归结构化序列,需要精确语法
高质量图像生成Flow Matching / 扩散像素级控制,质量高
实时图像生成Flow Matching支持少步数快速采样
视频生成混合架构时空复杂性需要结合两者优势
音频 / 音乐生成扩散 / Flow Matching连续信号处理优势

最新进展与趋势

2024-2025 年关键进展

  1. Flow Matching 成为图像生成新标准

    • SD3 和 FLUX.1 的成功验证了 Flow Matching 的实用性
    • 新模型普遍采用 Rectified Flow 替代 DDPM
  2. 自回归模型的多模态扩展

    • GPT-4V、Gemini 等实现图文统一自回归建模
    • VAR(视觉自回归)探索非从左到右的生成顺序
  3. 混合架构兴起

    • 自回归进行高层规划 + 扩散/Flow Matching 进行细节生成
    • 视频生成模型(如 Sora)采用时空 patch + 扩散/Transformer 混合
  4. 一致性模型和少步生成

    • Consistency Models、LCM 等追求单步/少步生成
    • Flow Matching 天然适合此方向
  5. Scaling Law 的持续验证

    • 三种范式都显示出随规模增加而提升的趋势
    • 计算资源成为主要瓶颈而非算法本身

未来方向

  • 统一框架:探索三种范式的更深层次统一
  • 离散数据的 Flow Matching:将流匹配扩展到文本等离散域
  • 实时生成:1 步或更少步数的高质量生成
  • 多模态统一:单一模型处理文本、图像、视频、音频

关键论文与资源

核心论文

论文作者会议贡献
Attention Is All You NeedVaswani et al.NeurIPS 2017Transformer 架构
Denoising Diffusion Probabilistic ModelsHo et al.NeurIPS 2020DDPM
Score-Based Generative Modeling through SDEsSong et al.ICLR 2021Score SDE
High-Resolution Image Synthesis with Latent DiffusionRombach et al.CVPR 2022Stable Diffusion
Flow Matching for Generative ModelingLipman et al.ICLR 2023Flow Matching 理论
Flow Straight and FastLiu et al.ICLR 2023Rectified Flow
Scaling Rectified Flow TransformersEsser et al.2024SD3
FLUX.1 Technical ReportBlack Forest Labs2024FLUX.1

技术博客


相关页面

AI Knowledge Base — 持续积累