Appearance
生成式 AI 三大范式
生成式 AI 的核心是学习数据分布并从中采样生成新数据。当前主流有三大范式:自回归模型(Autoregressive)、扩散模型(Diffusion)、流匹配(Flow Matching)。它们分别在文本、图像、视频等领域各有优势,且正在趋向混合架构。
自回归模型(Autoregressive Models)
核心原理
自回归模型将联合概率分解为条件概率的乘积,通过逐 token 预测(Next Token Prediction)的方式生成数据:
latex
p(x) = \prod_{t=1}^{T} p(x_t | x_1, x_2, ..., x_{t-1})基于 Transformer Decoder 架构,通过**因果掩码(Causal Masking)**确保模型在预测位置 t 时只能看到之前的信息。每次只生成一个 token,且依赖于之前生成的所有 token。
代表模型
| 模型 | 年份 | 特点 |
|---|---|---|
| GPT 系列 | 2018-2024 | OpenAI 大规模语言模型,确立了自回归在 NLP 中的主导地位 |
| LLaMA / Mistral | 2023-2024 | 开源自回归模型代表 |
| DALL-E / Parti | 2021-2022 | 将图像离散化为 token 序列进行自回归生成 |
| Sora | 2024 | 时空 patch 的自回归/扩散混合架构 |
| VAR | 2024 | 字节跳动提出的多尺度视觉自回归模型 |
优缺点
- 优点:训练极其稳定(简单的交叉熵损失)、概率建模精确、文本生成质量极高、天然适合离散序列数据
- 缺点:生成速度慢(必须逐 token 生成,无法并行)、误差累积、不适合连续高维数据
扩散模型(Diffusion Models)
核心原理
扩散模型通过逐步去噪过程生成数据,包含两个过程:
- 前向过程(Forward/Noising):从数据 x₀ 开始,逐步添加高斯噪声,经过 T 步后变为纯噪声
- 反向过程(Reverse/Denoising):学习神经网络来逆转扩散过程,从噪声中恢复数据
训练目标通常是预测噪声(ε-prediction):
latex
\mathcal{L} = \mathbb{E}_{x_0, \epsilon, t} \left[ ||\epsilon - \epsilon_\theta(x_t, t)||^2 \right]关键变体
| 变体 | 论文 | 核心贡献 |
|---|---|---|
| DDPM | Ho et al., NeurIPS 2020 | 简化原始扩散模型,证明与 Score Matching 等价 |
| Score-Based | Song et al., ICLR 2021 | 将扩散视为 SDE,学习 Score 函数 |
| Stable Diffusion | Rombach et al., CVPR 2022 | 在**潜空间(Latent Space)**而非像素空间进行扩散 |
| DDIM | Song et al., ICLR 2021 | 确定性采样,加速推理 |
| Consistency Models | Song et al., ICML 2023 | 支持单步生成 |
代表模型
- Stable Diffusion 1.x/2.x(2022)— 潜空间扩散,开源图像生成的里程碑
- Imagen(2022)— Google 的像素级文本到图像模型
- DALL-E 2(2022)— OpenAI 的 unCLIP 架构
- SDXL(2023)— Stability AI 的高质量图像生成
优缺点
- 优点:生成质量极高、模式覆盖好、训练稳定(无需对抗训练)、条件生成灵活
- 缺点:采样速度慢(20-50 步)、训练计算量大、主要适合连续数据
流匹配 / 整流流(Flow Matching / Rectified Flow)
核心原理
Flow Matching 是一种基于**连续归一化流(Continuous Normalizing Flows, CNF)的生成建模方法,通过学习向量场(Vector Field)**实现高效生成。
不同于扩散模型学习去噪过程,Flow Matching 直接学习定义了从源分布(高斯噪声)到目标分布(数据分布)的最优传输路径的向量场:
latex
\frac{dx_t}{dt} = v_t(x_t), \quad t \in [0,1]**条件流匹配(Conditional Flow Matching)**的关键技巧是引入条件路径,将训练目标简化为回归问题:
latex
\mathcal{L}_{\text{FM}} = \mathbb{E}_{t, x_1, x_t} \left[ ||v_\theta(x_t, t) - u_t(x_t|x_1)||^2 \right]Rectified Flow(整流流)
- 论文:Liu et al., "Flow Straight and Fast", ICLR 2023
- 核心:学习直线路径(常速度向量场),使得 ODE 轨迹为直线
- 优势:直线路径意味着可以用极少步数(甚至 1 步)完成采样
与扩散模型的关系
| 特性 | 扩散模型 (DDPM) | Flow Matching |
|---|---|---|
| 数学框架 | SDE / 离散马尔可夫链 | ODE / 连续流 |
| 学习对象 | Score 函数 / 噪声 | 向量场 (Vector Field) |
| 传输路径 | 曲线路径 | 直线路径(Rectified Flow) |
| 采样步数 | 20-50 步 | 1-10 步 |
| 训练稳定性 | 需要噪声调度设计 | 更稳定,无需复杂调度 |
理论等价性:在特定条件下,概率流 ODE 与 Flow Matching 等价。Flow Matching 可以看作扩散模型的“ODE 版本”的更高效实现。
代表模型
| 模型 | 年份 | 特点 |
|---|---|---|
| Flow Matching (Lipman) | 2022-2023 | 奠基性理论工作,证明了 CFM 的高效性 |
| Rectified Flow | 2023 | 学习直线路径,支持快速采样 |
| Stable Diffusion 3 | 2024 | Stability AI 首次采用 Flow Matching 架构 |
| FLUX.1 | 2024 | Black Forest Labs(原 SD 团队)的 SOTA 模型 |
SD3 的 Flow Matching 架构
SD3 的关键改进:
- Multimodal Diffusion Transformer (MMDiT):分离图像和文本 token 的注意力
- Flow Matching 训练:替代传统的 DDPM 训练目标
- Rectified Flow 采样:支持更少的采样步数(4-50 步可调)
- Scaling:8B 参数规模,显著提升生成质量
FLUX.1 技术特点
Black Forest Labs(由 Stable Diffusion 原团队创立)推出的 FLUX.1:
- 基于改进的 Rectified Flow
- 结合 Transformer 和 Flow Matching 的优势
- 在图像质量、提示遵循、文本渲染等方面达到 SOTA
- FLUX.1 [dev] 和 [schnell] 版本开源
优缺点
- 优点:采样速度快(1-10 步)、训练更稳定、理论基础强、与 Transformer 兼容、灵活性高
- 缺点:相对较新、生态系统不如扩散模型成熟、单步质量仍有提升空间
三种范式对比
综合对比表
| 维度 | 自回归 | 扩散模型 | Flow Matching |
|---|---|---|---|
| 核心机制 | 逐 token 条件概率 | 逐步去噪 | 学习最优传输向量场 |
| 数学框架 | 链式法则 | SDE / Score Matching | ODE / Continuous Flow |
| 代表模型 | GPT-4, LLaMA, DALL-E | Stable Diffusion, Imagen | SD3, FLUX.1 |
| 训练稳定性 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 采样速度 | ⭐⭐ 慢(串行) | ⭐⭐⭐ 较慢(20-50 步) | ⭐⭐⭐⭐⭐ 快(1-10 步) |
| 生成质量 | ⭐⭐⭐⭐⭐ 文本极佳 | ⭐⭐⭐⭐⭐ 图像极佳 | ⭐⭐⭐⭐⭐ 图像极佳 |
| 并行生成 | ❌ 不支持 | ⚠️ 理论支持但需多步 | ✅ 支持,且步数少 |
| 数据类型 | 离散序列(文本) | 连续数据(图像/音频) | 连续数据(图像/音频) |
应用场景选型
| 场景 | 推荐范式 | 原因 |
|---|---|---|
| 文本生成 / 对话 | 自回归 | 天然适合离散序列,质量最高 |
| 代码生成 | 自回归 | 结构化序列,需要精确语法 |
| 高质量图像生成 | Flow Matching / 扩散 | 像素级控制,质量高 |
| 实时图像生成 | Flow Matching | 支持少步数快速采样 |
| 视频生成 | 混合架构 | 时空复杂性需要结合两者优势 |
| 音频 / 音乐生成 | 扩散 / Flow Matching | 连续信号处理优势 |
最新进展与趋势
2024-2025 年关键进展
Flow Matching 成为图像生成新标准
- SD3 和 FLUX.1 的成功验证了 Flow Matching 的实用性
- 新模型普遍采用 Rectified Flow 替代 DDPM
自回归模型的多模态扩展
- GPT-4V、Gemini 等实现图文统一自回归建模
- VAR(视觉自回归)探索非从左到右的生成顺序
混合架构兴起
- 自回归进行高层规划 + 扩散/Flow Matching 进行细节生成
- 视频生成模型(如 Sora)采用时空 patch + 扩散/Transformer 混合
一致性模型和少步生成
- Consistency Models、LCM 等追求单步/少步生成
- Flow Matching 天然适合此方向
Scaling Law 的持续验证
- 三种范式都显示出随规模增加而提升的趋势
- 计算资源成为主要瓶颈而非算法本身
未来方向
- 统一框架:探索三种范式的更深层次统一
- 离散数据的 Flow Matching:将流匹配扩展到文本等离散域
- 实时生成:1 步或更少步数的高质量生成
- 多模态统一:单一模型处理文本、图像、视频、音频
关键论文与资源
核心论文
| 论文 | 作者 | 会议 | 贡献 |
|---|---|---|---|
| Attention Is All You Need | Vaswani et al. | NeurIPS 2017 | Transformer 架构 |
| Denoising Diffusion Probabilistic Models | Ho et al. | NeurIPS 2020 | DDPM |
| Score-Based Generative Modeling through SDEs | Song et al. | ICLR 2021 | Score SDE |
| High-Resolution Image Synthesis with Latent Diffusion | Rombach et al. | CVPR 2022 | Stable Diffusion |
| Flow Matching for Generative Modeling | Lipman et al. | ICLR 2023 | Flow Matching 理论 |
| Flow Straight and Fast | Liu et al. | ICLR 2023 | Rectified Flow |
| Scaling Rectified Flow Transformers | Esser et al. | 2024 | SD3 |
| FLUX.1 Technical Report | Black Forest Labs | 2024 | FLUX.1 |
技术博客
- Stability AI Blog — SD3 技术细节
- Black Forest Labs — FLUX.1 技术说明
- Flow Matching Tutorial — 官方教程和代码
相关页面
- Diffusion Models — 扩散模型的详细原理
- Transformer Architecture — Transformer 架构详解
- Text-to-Video / Video Generation — 视频生成中的混合架构应用
- Mixture of Experts — 另一种提升模型容量的架构方法
- Scaling Laws — 生成式模型的规模扩展规律