生成式 AI 三大范式

生成式 AI 的核心是学习数据分布并从中采样生成新数据。当前主流有三大范式：自回归模型（Autoregressive）、扩散模型（Diffusion）、流匹配（Flow Matching）。它们分别在文本、图像、视频等领域各有优势，且正在趋向混合架构。

自回归模型（Autoregressive Models）

核心原理

自回归模型将联合概率分解为条件概率的乘积，通过逐 token 预测（Next Token Prediction）的方式生成数据：

latex

p(x) = \prod_{t=1}^{T} p(x_t | x_1, x_2, ..., x_{t-1})

基于 Transformer Decoder 架构，通过**因果掩码（Causal Masking）**确保模型在预测位置 t 时只能看到之前的信息。每次只生成一个 token，且依赖于之前生成的所有 token。

代表模型

模型	年份	特点
GPT 系列	2018-2024	OpenAI 大规模语言模型，确立了自回归在 NLP 中的主导地位
LLaMA / Mistral	2023-2024	开源自回归模型代表
DALL-E / Parti	2021-2022	将图像离散化为 token 序列进行自回归生成
Sora	2024	时空 patch 的自回归/扩散混合架构
VAR	2024	字节跳动提出的多尺度视觉自回归模型

优缺点

优点：训练极其稳定（简单的交叉熵损失）、概率建模精确、文本生成质量极高、天然适合离散序列数据
缺点：生成速度慢（必须逐 token 生成，无法并行）、误差累积、不适合连续高维数据

扩散模型（Diffusion Models）

核心原理

扩散模型通过逐步去噪过程生成数据，包含两个过程：

前向过程（Forward/Noising）：从数据 x₀ 开始，逐步添加高斯噪声，经过 T 步后变为纯噪声
反向过程（Reverse/Denoising）：学习神经网络来逆转扩散过程，从噪声中恢复数据

训练目标通常是预测噪声（ε-prediction）：

latex

\mathcal{L} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_\theta(x_t, t)||^2 \right]

关键变体

变体	论文	核心贡献
DDPM	Ho et al., NeurIPS 2020	简化原始扩散模型，证明与 Score Matching 等价
Score-Based	Song et al., ICLR 2021	将扩散视为 SDE，学习 Score 函数
Stable Diffusion	Rombach et al., CVPR 2022	在潜空间（Latent Space）而非像素空间进行扩散
DDIM	Song et al., ICLR 2021	确定性采样，加速推理
Consistency Models	Song et al., ICML 2023	支持单步生成

代表模型

Stable Diffusion 1.x/2.x（2022）— 潜空间扩散，开源图像生成的里程碑
Imagen（2022）— Google 的像素级文本到图像模型
DALL-E 2（2022）— OpenAI 的 unCLIP 架构
SDXL（2023）— Stability AI 的高质量图像生成

优缺点

优点：生成质量极高、模式覆盖好、训练稳定（无需对抗训练）、条件生成灵活
缺点：采样速度慢（20-50 步）、训练计算量大、主要适合连续数据

流匹配 / 整流流（Flow Matching / Rectified Flow）

核心原理

Flow Matching 是一种基于**连续归一化流（Continuous Normalizing Flows, CNF）的生成建模方法，通过学习向量场（Vector Field）**实现高效生成。

不同于扩散模型学习去噪过程，Flow Matching 直接学习定义了从源分布（高斯噪声）到目标分布（数据分布）的最优传输路径的向量场：

latex

\frac{dx_t}{dt} = v_t(x_t), \quad t \in [0,1]

**条件流匹配（Conditional Flow Matching）**的关键技巧是引入条件路径，将训练目标简化为回归问题：

latex

\mathcal{L}_{\text{FM}} = \mathbb{E}_{t, x_1, x_t} \left[ ||v_\theta(x_t, t) - u_t(x_t|x_1)||^2 \right]

Rectified Flow（整流流）

论文：Liu et al., "Flow Straight and Fast", ICLR 2023
核心：学习直线路径（常速度向量场），使得 ODE 轨迹为直线
优势：直线路径意味着可以用极少步数（甚至 1 步）完成采样

与扩散模型的关系

特性	扩散模型 (DDPM)	Flow Matching
数学框架	SDE / 离散马尔可夫链	ODE / 连续流
学习对象	Score 函数 / 噪声	向量场 (Vector Field)
传输路径	曲线路径	直线路径（Rectified Flow）
采样步数	20-50 步	1-10 步
训练稳定性	需要噪声调度设计	更稳定，无需复杂调度

理论等价性：在特定条件下，概率流 ODE 与 Flow Matching 等价。Flow Matching 可以看作扩散模型的“ODE 版本”的更高效实现。

代表模型

模型	年份	特点
Flow Matching (Lipman)	2022-2023	奠基性理论工作，证明了 CFM 的高效性
Rectified Flow	2023	学习直线路径，支持快速采样
Stable Diffusion 3	2024	Stability AI 首次采用 Flow Matching 架构
FLUX.1	2024	Black Forest Labs（原 SD 团队）的 SOTA 模型

SD3 的 Flow Matching 架构

SD3 的关键改进：

Multimodal Diffusion Transformer (MMDiT)：分离图像和文本 token 的注意力
Flow Matching 训练：替代传统的 DDPM 训练目标
Rectified Flow 采样：支持更少的采样步数（4-50 步可调）
Scaling：8B 参数规模，显著提升生成质量

FLUX.1 技术特点

Black Forest Labs（由 Stable Diffusion 原团队创立）推出的 FLUX.1：

基于改进的 Rectified Flow
结合 Transformer 和 Flow Matching 的优势
在图像质量、提示遵循、文本渲染等方面达到 SOTA
FLUX.1 [dev] 和 [schnell] 版本开源

优缺点

优点：采样速度快（1-10 步）、训练更稳定、理论基础强、与 Transformer 兼容、灵活性高
缺点：相对较新、生态系统不如扩散模型成熟、单步质量仍有提升空间

三种范式对比

综合对比表

维度	自回归	扩散模型	Flow Matching
核心机制	逐 token 条件概率	逐步去噪	学习最优传输向量场
数学框架	链式法则	SDE / Score Matching	ODE / Continuous Flow
代表模型	GPT-4, LLaMA, DALL-E	Stable Diffusion, Imagen	SD3, FLUX.1
训练稳定性	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
采样速度	⭐⭐ 慢（串行）	⭐⭐⭐ 较慢（20-50 步）	⭐⭐⭐⭐⭐ 快（1-10 步）
生成质量	⭐⭐⭐⭐⭐ 文本极佳	⭐⭐⭐⭐⭐ 图像极佳	⭐⭐⭐⭐⭐ 图像极佳
并行生成	❌ 不支持	⚠️ 理论支持但需多步	✅ 支持，且步数少
数据类型	离散序列（文本）	连续数据（图像/音频）	连续数据（图像/音频）

应用场景选型

场景	推荐范式	原因
文本生成 / 对话	自回归	天然适合离散序列，质量最高
代码生成	自回归	结构化序列，需要精确语法
高质量图像生成	Flow Matching / 扩散	像素级控制，质量高
实时图像生成	Flow Matching	支持少步数快速采样
视频生成	混合架构	时空复杂性需要结合两者优势
音频 / 音乐生成	扩散 / Flow Matching	连续信号处理优势

关键论文与资源

核心论文

论文	作者	会议	贡献
Attention Is All You Need	Vaswani et al.	NeurIPS 2017	Transformer 架构
Denoising Diffusion Probabilistic Models	Ho et al.	NeurIPS 2020	DDPM
Score-Based Generative Modeling through SDEs	Song et al.	ICLR 2021	Score SDE
High-Resolution Image Synthesis with Latent Diffusion	Rombach et al.	CVPR 2022	Stable Diffusion
Flow Matching for Generative Modeling	Lipman et al.	ICLR 2023	Flow Matching 理论
Flow Straight and Fast	Liu et al.	ICLR 2023	Rectified Flow
Scaling Rectified Flow Transformers	Esser et al.	2024	SD3
FLUX.1 Technical Report	Black Forest Labs	2024	FLUX.1

技术博客

Stability AI Blog — SD3 技术细节
Black Forest Labs — FLUX.1 技术说明
Flow Matching Tutorial — 官方教程和代码

生成式 AI 三大范式

自回归模型（Autoregressive Models）

核心原理

代表模型

优缺点

扩散模型（Diffusion Models）

核心原理

关键变体

代表模型

优缺点

流匹配 / 整流流（Flow Matching / Rectified Flow）

核心原理

Rectified Flow（整流流）

与扩散模型的关系

代表模型

SD3 的 Flow Matching 架构

FLUX.1 技术特点

优缺点

三种范式对比

综合对比表

应用场景选型

最新进展与趋势

2024-2025 年关键进展

未来方向

关键论文与资源

核心论文

技术博客

相关页面

生成式 AI 三大范式 ​

自回归模型（Autoregressive Models） ​

核心原理 ​

代表模型 ​

优缺点 ​

扩散模型（Diffusion Models） ​

核心原理 ​

关键变体 ​

代表模型 ​

优缺点 ​

流匹配 / 整流流（Flow Matching / Rectified Flow） ​

核心原理 ​

Rectified Flow（整流流） ​

与扩散模型的关系 ​

代表模型 ​

SD3 的 Flow Matching 架构 ​

FLUX.1 技术特点 ​

优缺点 ​

三种范式对比 ​

综合对比表 ​

应用场景选型 ​

最新进展与趋势 ​

2024-2025 年关键进展 ​

未来方向 ​

关键论文与资源 ​

核心论文 ​

技术博客 ​

相关页面 ​

生成式 AI 三大范式

自回归模型（Autoregressive Models）

核心原理

代表模型

优缺点

扩散模型（Diffusion Models）

核心原理

关键变体

代表模型

优缺点

流匹配 / 整流流（Flow Matching / Rectified Flow）

核心原理

Rectified Flow（整流流）

与扩散模型的关系

代表模型

SD3 的 Flow Matching 架构

FLUX.1 技术特点

优缺点

三种范式对比

综合对比表

应用场景选型

最新进展与趋势

2024-2025 年关键进展

未来方向

关键论文与资源

核心论文

技术博客

相关页面