Appearance
Diffusion Models
扩散模型(Diffusion Models)是一类通过逐步去噪从随机噪声中恢复结构化数据的生成模型。与 GAN 和 VAE 并列,它们构成了生成式 AI 的三大支柱,并凭借在图像、视频、音频生成上的卓越质量,成为当前视觉生成领域的主导范式。
Definition
扩散模型的核心思想很简单:先在前向过程中逐步向数据添加噪声直到完全随机,然后学习一个反向过程,从纯噪声开始逐步去噪重建原始数据。这个看似朴素的过程,却能在图像生成质量上超越 GAN,在多样性上超越 VAE,成为 DALL·E 3、Stable Diffusion、Midjourney、Sora 等主流生成系统的底层技术。
生成式 AI 的三条技术路径对比:
| 范式 | 核心机制 | 优势 | 劣势 |
|---|---|---|---|
| GAN | 生成器 + 判别器对抗训练 | 单步采样极快 | 模式崩塌、训练不稳定 |
| VAE | 变分下界 + 重参数化 | 潜在空间可插值 | 生成图像偏模糊 |
| Diffusion | 逐步加噪 + 逐步去噪 | 质量最高、覆盖度好 | 推理速度慢(需多步) |
如今扩散模型在视觉生成领域已占据绝对主导地位,但推理速度问题正通过蒸馏、一致性模型、对抗扩散混合等方法逐步解决。
How Diffusion Works
前向过程(Forward / Diffusion Process)
给定一张真实图像 x₀,前向过程逐步添加高斯噪声,经过 T 步(通常 T=1000)后图像完全变成高斯白噪声 x_T ~ N(0, I)。这是一个固定的马尔可夫链,无需训练:
q(x_t | x_{t-1}) = N(x_t; sqrt(1-β_t)·x_{t-1}, β_t·I)
其中 β_t 是预定义的噪声调度(noise schedule),控制每步添加的噪声量。一个关键性质是:我们可以直接从 x₀ 一步计算任意 t 时刻的加噪结果:
x_t = sqrt(α̅_t)·x₀ + sqrt(1-α̅_t)·ε,其中 ε ~ N(0, I)
这极大地提高了训练效率。
反向过程(Reverse / Denoising Process)
反向过程学习从噪声中恢复数据。模型 p_θ(x_{t-1} | x_t) 预测在给定带噪图像 x_t 时,如何消除一步噪声。核心训练目标是预测当前步添加的噪声 ε:
L = E_{t, x₀, ε} [ || ε - ε_θ(x_t, t) ||² ]
即让模型 ε_θ 学会预测 t 时刻的噪声 ε,然后通过减去预测噪声来去噪一步。
DDPM(Denoising Diffusion Probabilistic Models)
Ho et al.(2020)的 DDPM 论文是扩散模型复兴的里程碑。它证明了:
- 简单的 MSE 噪声预测损失可以训练高质量生成模型
- 无需对抗训练,生成质量即与 GAN 相当
- 但需要 1000 步推理,极慢
DDIM(Denoising Diffusion Implicit Models)
Song et al.(2021)提出 DDIM,通过非马尔可夫采样将推理步数从 1000 降至 50-100 步,同时保持生成质量。核心技巧:反向过程不再严格是马尔可夫链,而是可以直接跳跃到更早的时间步。
Conditioning & Text-to-Image
条件扩散
无条件扩散只能生成随机图像。要实现文本到图像(Text-to-Image),需要将条件信息(文本嵌入)注入去噪过程。
交叉注意力(Cross-Attention)
文本 prompt 通过文本编码器(如 CLIP、T5)编码为嵌入序列,然后通过交叉注意力层注入 U-Net 的每一层:
Attention(Q, K, V) = softmax(Q·K^T / sqrt(d))·V
其中 Q 来自图像特征,K、V 来自文本嵌入。这使得模型在去噪的每一步都能"看到"文本描述,并根据文本调整生成内容。
Classifier-Free Guidance(CFG)
CFG(Ho & Salimans, 2022)是扩散模型中最重要的采样技术之一。它的核心思想是在条件生成和无条件生成之间插值,以增强文本对齐:
ε̃_θ(z_t, c) = ε_θ(z_t, ∅) + w·(ε_θ(z_t, c) - ε_θ(z_t, ∅))
- w=1:正常条件生成
- w>1(通常 7.5-12):增强 prompt 遵循度(代价是多样性降低)
- w<1:降低 prompt 影响,增加多样性
训练时以一定概率(通常 10%)将条件 c 替换为 ∅(空文本),使模型同时学会条件和无条件预测。
Latent Diffusion (LDM)
潜在空间扩散
Stable Diffusion 的核心创新来自 Rombach et al.(2022)的 Latent Diffusion Models(LDM)。关键洞察:不在高维像素空间做扩散,而是在低维潜在空间做。
架构:
- VAE 编码器:将 512×512×3 的像素图像压缩为 64×64×4 的潜在表示(压缩率约 48 倍)
- U-Net:在潜在空间执行去噪,计算量大幅降低
- VAE 解码器:将去噪后的潜在表示解码回像素空间
优势:
- 计算量降低 ~90%,单张 512×512 图像可在消费级 GPU 上生成
- 可在更小的潜在空间上训练,数据效率更高
- VAE 的潜在空间具有良好的结构化特性
Stable Diffusion 版本演进
| 版本 | 发布时间 | 核心变化 |
|---|---|---|
| SD 1.4/1.5 | 2022 | 基于 LAION-5B 训练,860M 参数 U-Net,文本编码器为 CLIP ViT-L |
| SD 2.0/2.1 | 2022 | 改用 OpenCLIP,增加 depth-to-image、inpainting 能力 |
| SDXL | 2023 | 参数翻倍至 2.6B,引入双文本编码器(CLIP + OpenCLIP),支持 1024×1024 |
| SD 3 | 2024 | 改用 MMDiT(Diffusion Transformer),集成 T5-XXL 文本编码器,支持 16 通道潜在空间 |
| SD 3.5 | 2024 | 改进 MMDiT 架构,增强 prompt 理解和排版能力 |
Architecture Innovations
U-Net(默认骨干网络)
U-Net 最初用于医学图像分割,但在扩散模型中被证明是理想的去噪骨干:
- 编码器-解码器结构:下采样提取多尺度特征,上采样恢复空间分辨率
- 跳跃连接(Skip Connections):编码器每层的特征直接传递到解码器对应层,保留细节信息
- 自注意力 + 交叉注意力:分别在空间维度建模全局依赖,在文本条件维度对齐语义
DiT(Diffusion Transformer)
Peebles & Xie(2023)的 DiT 标志着一个重要转折:用 Transformer 替换 U-Net 作为扩散骨干。
核心设计:
- 将潜在表示切分为 patch tokens(类似 ViT)
- 使用 adaLN(adaptive Layer Norm)或 adaLN-Zero 将时间步 t 和条件 c 注入 Transformer 块
- 缩放不变性:Transformer 的自注意力天然适合处理不同分辨率的潜在表示
优势:
- 更好的扩展性:Transformer 架构的缩放规律(Scaling Laws)可迁移到视觉生成
- 统一架构:同一 Transformer 可处理图像、视频、3D 等多种模态
- 计算效率随参数规模可预测增长
采用 DiT 的系统:
- Stable Diffusion 3.0/3.5:使用 MMDiT(Multi-Modal Diffusion Transformer)
- Sora(OpenAI):大规模 DiT 用于视频生成
- PixArt-α/Σ(华为):高效 DiT 训练
MMDiT(Multi-Modal Diffusion Transformer)
SD3 引入的 MMDiT 是对 DiT 的重要改进:不再使用交叉注意力(cross-attention)将文本注入图像,而是将文本和图像 tokens 在同一个 Transformer 块中联合处理,类似于 Transformer Architecture 的 encoder-decoder 融合。
每层 MMDiT 块同时处理两组 tokens(图像 tokens + 文本 tokens),共享注意力权重但有自己的前馈网络。这使得文本和图像之间的交互更加深层和灵活。
Flow Matching
Flow Matching 是扩散的一种替代框架(Lipman et al., 2023; Rectified Flow),被 Stability AI 和 Black Forest Labs 采用。它不是预测噪声,而是学习一个从噪声到数据的连续概率流(probability flow)。核心优势:
- 更少的推理步数(通常 20-30 步即可高质量生成)
- 理论更简洁:直接学习向量场(vector field)而非噪声预测
- 与扩散架构兼容:可以用 U-Net 或 DiT 作为骨干
Video & Multi-Frame Generation
视频生成比图像生成难得多:不仅要保证每一帧的质量,还要保证帧间一致性(temporal consistency)——同一物体的外形、位置、运动需要在连续帧中平滑变化。
Sora(OpenAI, 2024)
Sora 是扩散模型在视频生成的里程碑。核心设计:
- DiT 骨干:将视频片段切分为时空 patches(spacetime patches),用 DiT 处理
- 潜在空间:使用 VAE 压缩视频帧到潜在空间
- 无裁剪训练:直接在原始分辨率、原始宽高比的视频上训练
- 语言理解:使用 DALL·E 3 的 re-captioning 技术,为视频生成详细文本描述
Sora 能生成长达 60 秒的一致视频,展示出对物理世界运动规律(如水、毛发、光影)的理解能力,尽管并不完美。
时序一致性技术
- Causal Attention:帧的注意力只能看到当前及之前的帧,保证因果性
- Temporal Attention:在空间注意力之外,增加时间维度的注意力层,建模跨帧关系
- 3D U-Net / 3D DiT:将 2D 空间卷积/注意力扩展为 3D(空间+时间)
- 条件帧:用前一帧作为条件输入,逐帧生成
其他视频扩散模型
| 模型 | 机构 | 特点 |
|---|---|---|
| WALT | Window Attention Latent Transformer,联合图像和视频训练 | |
| Veo 3 | 最新一代视频生成模型,支持高分辨率、长视频、精确语义控制 | |
| VideoLDM | NVIDIA | 基于 Stable Diffusion 1.5 的视频微调 |
| Emu Video | Meta | 两阶段生成:先文本→图像,再图像→视频 |
Audio Generation
扩散模型在音频生成中也取得了显著成功。核心思路是将音频转换为频谱图(spectrogram) 或音频潜在编码,然后在其上执行扩散过程。
| 模型 | 机构 | 方式 |
|---|---|---|
| AudioLDM | 香港科技大学 | 在 CLAP 潜在空间上进行潜在扩散,文本→音频 |
| MusicGen | Meta | 基于单级 Transformer 架构,编解码器 + 扩散 |
| Stable Audio | Stability AI | 基于 VAE + DiT 的音频扩散,支持长音频生成 |
| Stable Audio Open | Stability AI | 开源版本,支持音效、乐器、环境声 |
音频扩散的优势在于可控性和连续性:通过文本 prompt 精确控制声音内容、风格、长度,且能生成自然平滑的音频流。
Challenges
推理速度
扩散模型最大的实际瓶颈:生成一张图像需要多次前向传播(DDPM 需 1000 步,DDIM 需 50 步,流匹配需 20-30 步)。相比之下 GAN 只需 1 步。缓解方案:
- 扩散蒸馏(Diffusion Distillation):将多步扩散蒸馏为 1-4 步(如 Progressive Distillation、LCM、Adversarial Diffusion Distillation)
- 一致性模型(Consistency Models):Song et al.(2023)直接学习从噪声到数据的单步映射
- 对抗扩散混合:用 GAN 损失微调扩散模型,实现 1-4 步生成
这些技术与 Model Inference & Deployment 和 Model Quantization 结合,正使扩散模型在端侧设备上运行成为可能。
Prompt 遵循与生成质量
- 文字渲染(Text Render):在图像中生成准确的文字(如海报上的标题)仍是挑战,SD3/FLUX 通过 T5 编码器有所改善
- 手部和解剖结构:手指计数、人体姿势一致性是老问题,可通过更高质量的训练数据和 LoRA Fine-tuning 缓解
- 组合性(Compositionality):生成符合复杂 prompt 描述的物体关系(如"红色杯子在蓝色桌子左边")仍然困难
AI 生成内容检测
随着扩散模型质量接近真实,检测 AI 生成内容变得至关重要。方法包括:
- 水印:Stable Diffusion 3 等内置不可见水印
- C2PA 标准:内容来源和真实性验证
- 扩散反检测:基于扩散模型的反向去噪检测方法
这涉及更广泛的 AI Safety & Alignment 和伦理考量。
Relationship to LLMs
扩散模型和自回归语言模型(LLM)代表两种不同的生成范式:
| 维度 | 自回归(AR) | 扩散 |
|---|---|---|
| 生成方向 | 从左到右、顺序生成 | 从噪声到数据、迭代去噪 |
| 采样方式 | 逐个 token 生成 | 一次生成整个数据 |
| 训练目标 | 下一个 token 预测 | 噪声预测 |
| 推理步数 | 1 步/token(但 token 很多) | 多步(20-1000) |
| 视觉应用 | ViT + AR(如 DALL·E 1) | 扩散(当前主导) |
混合架构
一个重要的研究方向是融合扩散和自回归的优势:
- MAR(Masked AutoRegressive):Meta 提出的框架,将扩散的迭代去噪思想融入自回归生成,在图像生成上取得 SOTA
- 扩散 + LLM 共享 Transformer:如 DiT 的 Transformer Architecture 启示——如果扩散和 LLM 都基于 Transformer,它们的架构差异仅在注意力掩码和条件注入方式
- Token 化扩散:将扩散应用于离散 token 空间(如 VQ-VAE + 离散扩散),弥合图像生成和文本生成的鸿沟
长远趋势
随着 Multimodal Models 的发展,图像生成和语言生成正在走向统一架构。Gemini、GPT-4V 等模型已能同时理解图像和文本;下一代架构可能会在同一个模型中同时支持自回归(文本)和扩散(图像/视频)生成,共享同一个 Transformer 骨干。
Related Concepts
- 生成范式:Multimodal Models、Transformer Architecture
- 训练与部署:Scaling Laws、Fine-tuning、Model Inference & Deployment、Model Quantization
- 质量与安全:AI Hallucination、AI Safety & Alignment
- 系统集成:Retrieval Augmented Generation
- 图像生成实体:Stability AI、Black Forest Labs / Flux、Midjourney、Ideogram、OpenAI
Open Questions
- 扩散模型能否达到 GAN 级别的单步推理速度而不牺牲质量?
- 扩散+自回归的混合架构是否是通往通用生成模型的路径?
- 视频扩散中的物理一致性(重力、碰撞、光照)如何根本性解决?
- 图像/视频扩散模型是否真正"理解"视觉概念,还是只是学习像素分布?
- 音频扩散在音乐生成中的版权和伦理问题如何解决?
Sources
raw/articles/diffusion-models-research-2026-04-26.md
Ho et al. "Denoising Diffusion Probabilistic Models" (DDPM), 2020
Song et al. "Denoising Diffusion Implicit Models" (DDIM), 2021
Rombach et al. "High-Resolution Image Synthesis with Latent Diffusion Models" (LDM), 2022
Ho & Salimans. "Classifier-Free Diffusion Guidance" (CFG), 2022
Peebles & Xie. "Scalable Diffusion Models with Transformers" (DiT), 2023
Song et al. "Consistency Models" (CM), 2023
Lipman et al. "Flow Matching for Generative Modeling" (Flow Matching), 2023
Brooks et al. "Video Generation Models as World Simulators" (Sora), 2024
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程