Skip to content

Diffusion Models

扩散模型(Diffusion Models)是一类通过逐步去噪从随机噪声中恢复结构化数据的生成模型。与 GAN 和 VAE 并列,它们构成了生成式 AI 的三大支柱,并凭借在图像、视频、音频生成上的卓越质量,成为当前视觉生成领域的主导范式。

Definition

扩散模型的核心思想很简单:先在前向过程中逐步向数据添加噪声直到完全随机,然后学习一个反向过程,从纯噪声开始逐步去噪重建原始数据。这个看似朴素的过程,却能在图像生成质量上超越 GAN,在多样性上超越 VAE,成为 DALL·E 3、Stable Diffusion、Midjourney、Sora 等主流生成系统的底层技术。

生成式 AI 的三条技术路径对比:

范式核心机制优势劣势
GAN生成器 + 判别器对抗训练单步采样极快模式崩塌、训练不稳定
VAE变分下界 + 重参数化潜在空间可插值生成图像偏模糊
Diffusion逐步加噪 + 逐步去噪质量最高、覆盖度好推理速度慢(需多步)

如今扩散模型在视觉生成领域已占据绝对主导地位,但推理速度问题正通过蒸馏、一致性模型、对抗扩散混合等方法逐步解决。

How Diffusion Works

前向过程(Forward / Diffusion Process)

给定一张真实图像 x₀,前向过程逐步添加高斯噪声,经过 T 步(通常 T=1000)后图像完全变成高斯白噪声 x_T ~ N(0, I)。这是一个固定的马尔可夫链,无需训练:

q(x_t | x_{t-1}) = N(x_t; sqrt(1-β_t)·x_{t-1}, β_t·I)

其中 β_t 是预定义的噪声调度(noise schedule),控制每步添加的噪声量。一个关键性质是:我们可以直接从 x₀ 一步计算任意 t 时刻的加噪结果:

x_t = sqrt(α̅_t)·x₀ + sqrt(1-α̅_t)·ε,其中 ε ~ N(0, I)

这极大地提高了训练效率。

反向过程(Reverse / Denoising Process)

反向过程学习从噪声中恢复数据。模型 p_θ(x_{t-1} | x_t) 预测在给定带噪图像 x_t 时,如何消除一步噪声。核心训练目标是预测当前步添加的噪声 ε

L = E_{t, x₀, ε} [ || ε - ε_θ(x_t, t) ||² ]

即让模型 ε_θ 学会预测 t 时刻的噪声 ε,然后通过减去预测噪声来去噪一步。

DDPM(Denoising Diffusion Probabilistic Models)

Ho et al.(2020)的 DDPM 论文是扩散模型复兴的里程碑。它证明了:

  • 简单的 MSE 噪声预测损失可以训练高质量生成模型
  • 无需对抗训练,生成质量即与 GAN 相当
  • 但需要 1000 步推理,极慢

DDIM(Denoising Diffusion Implicit Models)

Song et al.(2021)提出 DDIM,通过非马尔可夫采样将推理步数从 1000 降至 50-100 步,同时保持生成质量。核心技巧:反向过程不再严格是马尔可夫链,而是可以直接跳跃到更早的时间步。

Conditioning & Text-to-Image

条件扩散

无条件扩散只能生成随机图像。要实现文本到图像(Text-to-Image),需要将条件信息(文本嵌入)注入去噪过程。

交叉注意力(Cross-Attention)

文本 prompt 通过文本编码器(如 CLIP、T5)编码为嵌入序列,然后通过交叉注意力层注入 U-Net 的每一层:

Attention(Q, K, V) = softmax(Q·K^T / sqrt(d))·V

其中 Q 来自图像特征,K、V 来自文本嵌入。这使得模型在去噪的每一步都能"看到"文本描述,并根据文本调整生成内容。

Classifier-Free Guidance(CFG)

CFG(Ho & Salimans, 2022)是扩散模型中最重要的采样技术之一。它的核心思想是在条件生成和无条件生成之间插值,以增强文本对齐:

ε̃_θ(z_t, c) = ε_θ(z_t, ∅) + w·(ε_θ(z_t, c) - ε_θ(z_t, ∅))

  • w=1:正常条件生成
  • w>1(通常 7.5-12):增强 prompt 遵循度(代价是多样性降低)
  • w<1:降低 prompt 影响,增加多样性

训练时以一定概率(通常 10%)将条件 c 替换为 ∅(空文本),使模型同时学会条件和无条件预测。

Latent Diffusion (LDM)

潜在空间扩散

Stable Diffusion 的核心创新来自 Rombach et al.(2022)的 Latent Diffusion Models(LDM)。关键洞察:不在高维像素空间做扩散,而是在低维潜在空间做

架构:

文本 Prompt → 文本编码器(CLIP) → 交叉注意力 → U-Net(潜在空间去噪)

像素图像 → VAE 编码器 → 潜在表示 z₀ → 加噪 → z_t → U-Net → z₀' → VAE 解码器 → 生成图像
  • VAE 编码器:将 512×512×3 的像素图像压缩为 64×64×4 的潜在表示(压缩率约 48 倍)
  • U-Net:在潜在空间执行去噪,计算量大幅降低
  • VAE 解码器:将去噪后的潜在表示解码回像素空间

优势:

  • 计算量降低 ~90%,单张 512×512 图像可在消费级 GPU 上生成
  • 可在更小的潜在空间上训练,数据效率更高
  • VAE 的潜在空间具有良好的结构化特性

Stable Diffusion 版本演进

版本发布时间核心变化
SD 1.4/1.52022基于 LAION-5B 训练,860M 参数 U-Net,文本编码器为 CLIP ViT-L
SD 2.0/2.12022改用 OpenCLIP,增加 depth-to-image、inpainting 能力
SDXL2023参数翻倍至 2.6B,引入双文本编码器(CLIP + OpenCLIP),支持 1024×1024
SD 32024改用 MMDiT(Diffusion Transformer),集成 T5-XXL 文本编码器,支持 16 通道潜在空间
SD 3.52024改进 MMDiT 架构,增强 prompt 理解和排版能力

Architecture Innovations

U-Net(默认骨干网络)

U-Net 最初用于医学图像分割,但在扩散模型中被证明是理想的去噪骨干:

  • 编码器-解码器结构:下采样提取多尺度特征,上采样恢复空间分辨率
  • 跳跃连接(Skip Connections):编码器每层的特征直接传递到解码器对应层,保留细节信息
  • 自注意力 + 交叉注意力:分别在空间维度建模全局依赖,在文本条件维度对齐语义

DiT(Diffusion Transformer)

Peebles & Xie(2023)的 DiT 标志着一个重要转折:用 Transformer 替换 U-Net 作为扩散骨干

核心设计:

  • 将潜在表示切分为 patch tokens(类似 ViT)
  • 使用 adaLN(adaptive Layer Norm)或 adaLN-Zero 将时间步 t 和条件 c 注入 Transformer 块
  • 缩放不变性:Transformer 的自注意力天然适合处理不同分辨率的潜在表示

优势:

  • 更好的扩展性:Transformer 架构的缩放规律(Scaling Laws)可迁移到视觉生成
  • 统一架构:同一 Transformer 可处理图像、视频、3D 等多种模态
  • 计算效率随参数规模可预测增长

采用 DiT 的系统:

  • Stable Diffusion 3.0/3.5:使用 MMDiT(Multi-Modal Diffusion Transformer)
  • Sora(OpenAI):大规模 DiT 用于视频生成
  • PixArt-α/Σ(华为):高效 DiT 训练

MMDiT(Multi-Modal Diffusion Transformer)

SD3 引入的 MMDiT 是对 DiT 的重要改进:不再使用交叉注意力(cross-attention)将文本注入图像,而是将文本和图像 tokens 在同一个 Transformer 块中联合处理,类似于 Transformer Architecture 的 encoder-decoder 融合。

每层 MMDiT 块同时处理两组 tokens(图像 tokens + 文本 tokens),共享注意力权重但有自己的前馈网络。这使得文本和图像之间的交互更加深层和灵活。

Flow Matching

Flow Matching 是扩散的一种替代框架(Lipman et al., 2023; Rectified Flow),被 Stability AI 和 Black Forest Labs 采用。它不是预测噪声,而是学习一个从噪声到数据的连续概率流(probability flow)。核心优势:

  • 更少的推理步数(通常 20-30 步即可高质量生成)
  • 理论更简洁:直接学习向量场(vector field)而非噪声预测
  • 与扩散架构兼容:可以用 U-Net 或 DiT 作为骨干

Video & Multi-Frame Generation

视频生成比图像生成难得多:不仅要保证每一帧的质量,还要保证帧间一致性(temporal consistency)——同一物体的外形、位置、运动需要在连续帧中平滑变化。

Sora(OpenAI, 2024)

Sora 是扩散模型在视频生成的里程碑。核心设计:

  • DiT 骨干:将视频片段切分为时空 patches(spacetime patches),用 DiT 处理
  • 潜在空间:使用 VAE 压缩视频帧到潜在空间
  • 无裁剪训练:直接在原始分辨率、原始宽高比的视频上训练
  • 语言理解:使用 DALL·E 3 的 re-captioning 技术,为视频生成详细文本描述

Sora 能生成长达 60 秒的一致视频,展示出对物理世界运动规律(如水、毛发、光影)的理解能力,尽管并不完美。

时序一致性技术

  • Causal Attention:帧的注意力只能看到当前及之前的帧,保证因果性
  • Temporal Attention:在空间注意力之外,增加时间维度的注意力层,建模跨帧关系
  • 3D U-Net / 3D DiT:将 2D 空间卷积/注意力扩展为 3D(空间+时间)
  • 条件帧:用前一帧作为条件输入,逐帧生成

其他视频扩散模型

模型机构特点
WALTGoogleWindow Attention Latent Transformer,联合图像和视频训练
Veo 3Google最新一代视频生成模型,支持高分辨率、长视频、精确语义控制
VideoLDMNVIDIA基于 Stable Diffusion 1.5 的视频微调
Emu VideoMeta两阶段生成:先文本→图像,再图像→视频

Audio Generation

扩散模型在音频生成中也取得了显著成功。核心思路是将音频转换为频谱图(spectrogram)音频潜在编码,然后在其上执行扩散过程。

模型机构方式
AudioLDM香港科技大学在 CLAP 潜在空间上进行潜在扩散,文本→音频
MusicGenMeta基于单级 Transformer 架构,编解码器 + 扩散
Stable AudioStability AI基于 VAE + DiT 的音频扩散,支持长音频生成
Stable Audio OpenStability AI开源版本,支持音效、乐器、环境声

音频扩散的优势在于可控性和连续性:通过文本 prompt 精确控制声音内容、风格、长度,且能生成自然平滑的音频流。

Challenges

推理速度

扩散模型最大的实际瓶颈:生成一张图像需要多次前向传播(DDPM 需 1000 步,DDIM 需 50 步,流匹配需 20-30 步)。相比之下 GAN 只需 1 步。缓解方案:

  • 扩散蒸馏(Diffusion Distillation):将多步扩散蒸馏为 1-4 步(如 Progressive Distillation、LCM、Adversarial Diffusion Distillation)
  • 一致性模型(Consistency Models):Song et al.(2023)直接学习从噪声到数据的单步映射
  • 对抗扩散混合:用 GAN 损失微调扩散模型,实现 1-4 步生成

这些技术与 Model Inference & DeploymentModel Quantization 结合,正使扩散模型在端侧设备上运行成为可能。

Prompt 遵循与生成质量

  • 文字渲染(Text Render):在图像中生成准确的文字(如海报上的标题)仍是挑战,SD3/FLUX 通过 T5 编码器有所改善
  • 手部和解剖结构:手指计数、人体姿势一致性是老问题,可通过更高质量的训练数据和 LoRA Fine-tuning 缓解
  • 组合性(Compositionality):生成符合复杂 prompt 描述的物体关系(如"红色杯子在蓝色桌子左边")仍然困难

AI 生成内容检测

随着扩散模型质量接近真实,检测 AI 生成内容变得至关重要。方法包括:

  • 水印:Stable Diffusion 3 等内置不可见水印
  • C2PA 标准:内容来源和真实性验证
  • 扩散反检测:基于扩散模型的反向去噪检测方法

这涉及更广泛的 AI Safety & Alignment 和伦理考量。

Relationship to LLMs

扩散模型和自回归语言模型(LLM)代表两种不同的生成范式:

维度自回归(AR)扩散
生成方向从左到右、顺序生成从噪声到数据、迭代去噪
采样方式逐个 token 生成一次生成整个数据
训练目标下一个 token 预测噪声预测
推理步数1 步/token(但 token 很多)多步(20-1000)
视觉应用ViT + AR(如 DALL·E 1)扩散(当前主导)

混合架构

一个重要的研究方向是融合扩散和自回归的优势:

  • MAR(Masked AutoRegressive):Meta 提出的框架,将扩散的迭代去噪思想融入自回归生成,在图像生成上取得 SOTA
  • 扩散 + LLM 共享 Transformer:如 DiT 的 Transformer Architecture 启示——如果扩散和 LLM 都基于 Transformer,它们的架构差异仅在注意力掩码和条件注入方式
  • Token 化扩散:将扩散应用于离散 token 空间(如 VQ-VAE + 离散扩散),弥合图像生成和文本生成的鸿沟

长远趋势

随着 Multimodal Models 的发展,图像生成和语言生成正在走向统一架构。Gemini、GPT-4V 等模型已能同时理解图像和文本;下一代架构可能会在同一个模型中同时支持自回归(文本)和扩散(图像/视频)生成,共享同一个 Transformer 骨干。

Open Questions

  • 扩散模型能否达到 GAN 级别的单步推理速度而不牺牲质量?
  • 扩散+自回归的混合架构是否是通往通用生成模型的路径?
  • 视频扩散中的物理一致性(重力、碰撞、光照)如何根本性解决?
  • 图像/视频扩散模型是否真正"理解"视觉概念,还是只是学习像素分布?
  • 音频扩散在音乐生成中的版权和伦理问题如何解决?

Sources

  • raw/articles/diffusion-models-research-2026-04-26.md
  • Ho et al. "Denoising Diffusion Probabilistic Models" (DDPM), 2020
  • Song et al. "Denoising Diffusion Implicit Models" (DDIM), 2021
  • Rombach et al. "High-Resolution Image Synthesis with Latent Diffusion Models" (LDM), 2022
  • Ho & Salimans. "Classifier-Free Diffusion Guidance" (CFG), 2022
  • Peebles & Xie. "Scalable Diffusion Models with Transformers" (DiT), 2023
  • Song et al. "Consistency Models" (CM), 2023
  • Lipman et al. "Flow Matching for Generative Modeling" (Flow Matching), 2023
  • Brooks et al. "Video Generation Models as World Simulators" (Sora), 2024

AI Knowledge Base — 持续积累