Diffusion Models

扩散模型（Diffusion Models）是一类通过逐步去噪从随机噪声中恢复结构化数据的生成模型。与 GAN 和 VAE 并列，它们构成了生成式 AI 的三大支柱，并凭借在图像、视频、音频生成上的卓越质量，成为当前视觉生成领域的主导范式。

Definition

扩散模型的核心思想很简单：先在前向过程中逐步向数据添加噪声直到完全随机，然后学习一个反向过程，从纯噪声开始逐步去噪重建原始数据。这个看似朴素的过程，却能在图像生成质量上超越 GAN，在多样性上超越 VAE，成为 DALL·E 3、Stable Diffusion、Midjourney、Sora 等主流生成系统的底层技术。

生成式 AI 的三条技术路径对比：

范式	核心机制	优势	劣势
GAN	生成器 + 判别器对抗训练	单步采样极快	模式崩塌、训练不稳定
VAE	变分下界 + 重参数化	潜在空间可插值	生成图像偏模糊
Diffusion	逐步加噪 + 逐步去噪	质量最高、覆盖度好	推理速度慢（需多步）

如今扩散模型在视觉生成领域已占据绝对主导地位，但推理速度问题正通过蒸馏、一致性模型、对抗扩散混合等方法逐步解决。

How Diffusion Works

前向过程（Forward / Diffusion Process）

给定一张真实图像 x₀，前向过程逐步添加高斯噪声，经过 T 步（通常 T=1000）后图像完全变成高斯白噪声 x_T ~ N(0, I)。这是一个固定的马尔可夫链，无需训练：

q(x_t | x_{t-1}) = N(x_t; sqrt(1-β_t)·x_{t-1}, β_t·I)

其中 β_t 是预定义的噪声调度（noise schedule），控制每步添加的噪声量。一个关键性质是：我们可以直接从 x₀ 一步计算任意 t 时刻的加噪结果：

x_t = sqrt(α̅_t)·x₀ + sqrt(1-α̅_t)·ε，其中 ε ~ N(0, I)

这极大地提高了训练效率。

反向过程（Reverse / Denoising Process）

反向过程学习从噪声中恢复数据。模型 p_θ(x_{t-1} | x_t) 预测在给定带噪图像 x_t 时，如何消除一步噪声。核心训练目标是预测当前步添加的噪声 ε：

L = E_{t, x₀, ε} [ || ε - ε_θ(x_t, t) ||² ]

即让模型 ε_θ 学会预测 t 时刻的噪声 ε，然后通过减去预测噪声来去噪一步。

DDPM（Denoising Diffusion Probabilistic Models）

Ho et al.（2020）的 DDPM 论文是扩散模型复兴的里程碑。它证明了：

简单的 MSE 噪声预测损失可以训练高质量生成模型
无需对抗训练，生成质量即与 GAN 相当
但需要 1000 步推理，极慢

DDIM（Denoising Diffusion Implicit Models）

Song et al.（2021）提出 DDIM，通过非马尔可夫采样将推理步数从 1000 降至 50-100 步，同时保持生成质量。核心技巧：反向过程不再严格是马尔可夫链，而是可以直接跳跃到更早的时间步。

Conditioning & Text-to-Image

条件扩散

无条件扩散只能生成随机图像。要实现文本到图像（Text-to-Image），需要将条件信息（文本嵌入）注入去噪过程。

交叉注意力（Cross-Attention）

文本 prompt 通过文本编码器（如 CLIP、T5）编码为嵌入序列，然后通过交叉注意力层注入 U-Net 的每一层：

Attention(Q, K, V) = softmax(Q·K^T / sqrt(d))·V

其中 Q 来自图像特征，K、V 来自文本嵌入。这使得模型在去噪的每一步都能"看到"文本描述，并根据文本调整生成内容。

Classifier-Free Guidance（CFG）

CFG（Ho & Salimans, 2022）是扩散模型中最重要的采样技术之一。它的核心思想是在条件生成和无条件生成之间插值，以增强文本对齐：

ε̃_θ(z_t, c) = ε_θ(z_t, ∅) + w·(ε_θ(z_t, c) - ε_θ(z_t, ∅))

w=1：正常条件生成
w>1（通常 7.5-12）：增强 prompt 遵循度（代价是多样性降低）
w<1：降低 prompt 影响，增加多样性

训练时以一定概率（通常 10%）将条件 c 替换为 ∅（空文本），使模型同时学会条件和无条件预测。

Latent Diffusion (LDM)

潜在空间扩散

Stable Diffusion 的核心创新来自 Rombach et al.（2022）的 Latent Diffusion Models（LDM）。关键洞察：不在高维像素空间做扩散，而是在低维潜在空间做。

架构：

文本 Prompt → 文本编码器（CLIP） → 交叉注意力 → U-Net（潜在空间去噪）
                                                      ↑
像素图像 → VAE 编码器 → 潜在表示 z₀ → 加噪 → z_t → U-Net → z₀' → VAE 解码器 → 生成图像

VAE 编码器：将 512×512×3 的像素图像压缩为 64×64×4 的潜在表示（压缩率约 48 倍）
U-Net：在潜在空间执行去噪，计算量大幅降低
VAE 解码器：将去噪后的潜在表示解码回像素空间

优势：

计算量降低 ~90%，单张 512×512 图像可在消费级 GPU 上生成
可在更小的潜在空间上训练，数据效率更高
VAE 的潜在空间具有良好的结构化特性

Stable Diffusion 版本演进

版本	发布时间	核心变化
SD 1.4/1.5	2022	基于 LAION-5B 训练，860M 参数 U-Net，文本编码器为 CLIP ViT-L
SD 2.0/2.1	2022	改用 OpenCLIP，增加 depth-to-image、inpainting 能力
SDXL	2023	参数翻倍至 2.6B，引入双文本编码器（CLIP + OpenCLIP），支持 1024×1024
SD 3	2024	改用 MMDiT（Diffusion Transformer），集成 T5-XXL 文本编码器，支持 16 通道潜在空间
SD 3.5	2024	改进 MMDiT 架构，增强 prompt 理解和排版能力

Architecture Innovations

U-Net（默认骨干网络）

U-Net 最初用于医学图像分割，但在扩散模型中被证明是理想的去噪骨干：

编码器-解码器结构：下采样提取多尺度特征，上采样恢复空间分辨率
跳跃连接（Skip Connections）：编码器每层的特征直接传递到解码器对应层，保留细节信息
自注意力 + 交叉注意力：分别在空间维度建模全局依赖，在文本条件维度对齐语义

DiT（Diffusion Transformer）

Peebles & Xie（2023）的 DiT 标志着一个重要转折：用 Transformer 替换 U-Net 作为扩散骨干。

核心设计：

将潜在表示切分为 patch tokens（类似 ViT）
使用 adaLN（adaptive Layer Norm）或 adaLN-Zero 将时间步 t 和条件 c 注入 Transformer 块
缩放不变性：Transformer 的自注意力天然适合处理不同分辨率的潜在表示

优势：

更好的扩展性：Transformer 架构的缩放规律（Scaling Laws）可迁移到视觉生成
统一架构：同一 Transformer 可处理图像、视频、3D 等多种模态
计算效率随参数规模可预测增长

采用 DiT 的系统：

Stable Diffusion 3.0/3.5：使用 MMDiT（Multi-Modal Diffusion Transformer）
Sora（OpenAI）：大规模 DiT 用于视频生成
PixArt-α/Σ（华为）：高效 DiT 训练

SD3 引入的 MMDiT 是对 DiT 的重要改进：不再使用交叉注意力（cross-attention）将文本注入图像，而是将文本和图像 tokens 在同一个 Transformer 块中联合处理，类似于 Transformer Architecture 的 encoder-decoder 融合。

每层 MMDiT 块同时处理两组 tokens（图像 tokens + 文本 tokens），共享注意力权重但有自己的前馈网络。这使得文本和图像之间的交互更加深层和灵活。

Flow Matching

Flow Matching 是扩散的一种替代框架（Lipman et al., 2023; Rectified Flow），被 Stability AI 和 Black Forest Labs 采用。它不是预测噪声，而是学习一个从噪声到数据的连续概率流（probability flow）。核心优势：

更少的推理步数（通常 20-30 步即可高质量生成）
理论更简洁：直接学习向量场（vector field）而非噪声预测
与扩散架构兼容：可以用 U-Net 或 DiT 作为骨干

Video & Multi-Frame Generation

视频生成比图像生成难得多：不仅要保证每一帧的质量，还要保证帧间一致性（temporal consistency）——同一物体的外形、位置、运动需要在连续帧中平滑变化。

Sora（OpenAI, 2024）

Sora 是扩散模型在视频生成的里程碑。核心设计：

DiT 骨干：将视频片段切分为时空 patches（spacetime patches），用 DiT 处理
潜在空间：使用 VAE 压缩视频帧到潜在空间
无裁剪训练：直接在原始分辨率、原始宽高比的视频上训练
语言理解：使用 DALL·E 3 的 re-captioning 技术，为视频生成详细文本描述

Sora 能生成长达 60 秒的一致视频，展示出对物理世界运动规律（如水、毛发、光影）的理解能力，尽管并不完美。

时序一致性技术

Causal Attention：帧的注意力只能看到当前及之前的帧，保证因果性
Temporal Attention：在空间注意力之外，增加时间维度的注意力层，建模跨帧关系
3D U-Net / 3D DiT：将 2D 空间卷积/注意力扩展为 3D（空间+时间）
条件帧：用前一帧作为条件输入，逐帧生成

其他视频扩散模型

模型	机构	特点
WALT	Google	Window Attention Latent Transformer，联合图像和视频训练
Veo 3	Google	最新一代视频生成模型，支持高分辨率、长视频、精确语义控制
VideoLDM	NVIDIA	基于 Stable Diffusion 1.5 的视频微调
Emu Video	Meta	两阶段生成：先文本→图像，再图像→视频

Audio Generation

扩散模型在音频生成中也取得了显著成功。核心思路是将音频转换为频谱图（spectrogram） 或音频潜在编码，然后在其上执行扩散过程。

模型	机构	方式
AudioLDM	香港科技大学	在 CLAP 潜在空间上进行潜在扩散，文本→音频
MusicGen	Meta	基于单级 Transformer 架构，编解码器 + 扩散
Stable Audio	Stability AI	基于 VAE + DiT 的音频扩散，支持长音频生成
Stable Audio Open	Stability AI	开源版本，支持音效、乐器、环境声

音频扩散的优势在于可控性和连续性：通过文本 prompt 精确控制声音内容、风格、长度，且能生成自然平滑的音频流。

Challenges

推理速度

扩散模型最大的实际瓶颈：生成一张图像需要多次前向传播（DDPM 需 1000 步，DDIM 需 50 步，流匹配需 20-30 步）。相比之下 GAN 只需 1 步。缓解方案：

扩散蒸馏（Diffusion Distillation）：将多步扩散蒸馏为 1-4 步（如 Progressive Distillation、LCM、Adversarial Diffusion Distillation）
一致性模型（Consistency Models）：Song et al.（2023）直接学习从噪声到数据的单步映射
对抗扩散混合：用 GAN 损失微调扩散模型，实现 1-4 步生成

这些技术与 Model Inference & Deployment 和 Model Quantization 结合，正使扩散模型在端侧设备上运行成为可能。

Prompt 遵循与生成质量

文字渲染（Text Render）：在图像中生成准确的文字（如海报上的标题）仍是挑战，SD3/FLUX 通过 T5 编码器有所改善
手部和解剖结构：手指计数、人体姿势一致性是老问题，可通过更高质量的训练数据和 LoRA Fine-tuning 缓解
组合性（Compositionality）：生成符合复杂 prompt 描述的物体关系（如"红色杯子在蓝色桌子左边"）仍然困难

AI 生成内容检测

随着扩散模型质量接近真实，检测 AI 生成内容变得至关重要。方法包括：

水印：Stable Diffusion 3 等内置不可见水印
C2PA 标准：内容来源和真实性验证
扩散反检测：基于扩散模型的反向去噪检测方法

这涉及更广泛的 AI Safety & Alignment 和伦理考量。

Relationship to LLMs

扩散模型和自回归语言模型（LLM）代表两种不同的生成范式：

维度	自回归（AR）	扩散
生成方向	从左到右、顺序生成	从噪声到数据、迭代去噪
采样方式	逐个 token 生成	一次生成整个数据
训练目标	下一个 token 预测	噪声预测
推理步数	1 步/token（但 token 很多）	多步（20-1000）
视觉应用	ViT + AR（如 DALL·E 1）	扩散（当前主导）

混合架构

一个重要的研究方向是融合扩散和自回归的优势：

MAR（Masked AutoRegressive）：Meta 提出的框架，将扩散的迭代去噪思想融入自回归生成，在图像生成上取得 SOTA
扩散 + LLM 共享 Transformer：如 DiT 的 Transformer Architecture 启示——如果扩散和 LLM 都基于 Transformer，它们的架构差异仅在注意力掩码和条件注入方式
Token 化扩散：将扩散应用于离散 token 空间（如 VQ-VAE + 离散扩散），弥合图像生成和文本生成的鸿沟

长远趋势

随着 Multimodal Models 的发展，图像生成和语言生成正在走向统一架构。Gemini、GPT-4V 等模型已能同时理解图像和文本；下一代架构可能会在同一个模型中同时支持自回归（文本）和扩散（图像/视频）生成，共享同一个 Transformer 骨干。

生成范式：Multimodal Models、Transformer Architecture
训练与部署：Scaling Laws、Fine-tuning、Model Inference & Deployment、Model Quantization
质量与安全：AI Hallucination、AI Safety & Alignment
系统集成：Retrieval Augmented Generation

Open Questions

扩散模型能否达到 GAN 级别的单步推理速度而不牺牲质量？
扩散+自回归的混合架构是否是通往通用生成模型的路径？
视频扩散中的物理一致性（重力、碰撞、光照）如何根本性解决？
图像/视频扩散模型是否真正"理解"视觉概念，还是只是学习像素分布？
音频扩散在音乐生成中的版权和伦理问题如何解决？

Sources

raw/articles/diffusion-models-research-2026-04-26.md
Ho et al. "Denoising Diffusion Probabilistic Models" (DDPM), 2020
Song et al. "Denoising Diffusion Implicit Models" (DDIM), 2021
Rombach et al. "High-Resolution Image Synthesis with Latent Diffusion Models" (LDM), 2022
Ho & Salimans. "Classifier-Free Diffusion Guidance" (CFG), 2022
Peebles & Xie. "Scalable Diffusion Models with Transformers" (DiT), 2023
Song et al. "Consistency Models" (CM), 2023
Lipman et al. "Flow Matching for Generative Modeling" (Flow Matching), 2023
Brooks et al. "Video Generation Models as World Simulators" (Sora), 2024

Diffusion Models ​

Definition ​

How Diffusion Works ​

前向过程（Forward / Diffusion Process） ​

反向过程（Reverse / Denoising Process） ​

DDPM（Denoising Diffusion Probabilistic Models） ​

DDIM（Denoising Diffusion Implicit Models） ​

Conditioning & Text-to-Image ​

条件扩散 ​

交叉注意力（Cross-Attention） ​

Classifier-Free Guidance（CFG） ​

Latent Diffusion (LDM) ​

潜在空间扩散 ​

Stable Diffusion 版本演进 ​

Architecture Innovations ​

U-Net（默认骨干网络） ​

DiT（Diffusion Transformer） ​

MMDiT（Multi-Modal Diffusion Transformer） ​

Flow Matching ​

Video & Multi-Frame Generation ​

Sora（OpenAI, 2024） ​

时序一致性技术 ​

其他视频扩散模型 ​

Audio Generation ​

Challenges ​

推理速度 ​

Prompt 遵循与生成质量 ​

AI 生成内容检测 ​

Relationship to LLMs ​

混合架构 ​

长远趋势 ​

Related Concepts ​

Open Questions ​

Sources ​