Appearance
Diffusion Models
扩散模型(Diffusion Models)是一类通过逐步去噪从随机噪声中恢复结构化数据的生成模型。与 GAN 和 VAE 并列,它们构成了生成式 AI 的三大支柱,并凭借在图像、视频、音频生成上的卓越质量,成为当前视觉生成领域的主导范式。
Definition
扩散模型的核心思想很简单:先在前向过程中逐步向数据添加噪声直到完全随机,然后学习一个反向过程,从纯噪声开始逐步去噪重建原始数据。这个看似朴素的过程,却能在图像生成质量上超越 GAN,在多样性上超越 VAE,成为 DALL·E 3、Stable Diffusion、Midjourney、Sora 等主流生成系统的底层技术。
生成式 AI 的三条技术路径对比:
| 范式 | 核心机制 | 优势 | 劣势 |
|---|---|---|---|
| GAN | 生成器 + 判别器对抗训练 | 单步采样极快 | 模式崩塌、训练不稳定 |
| VAE | 变分下界 + 重参数化 | 潜在空间可插值 | 生成图像偏模糊 |
| Diffusion | 逐步加噪 + 逐步去噪 | 质量最高、覆盖度好 | 推理速度慢(需多步) |
如今扩散模型在视觉生成领域已占据绝对主导地位,但推理速度问题正通过蒸馏、一致性模型、对抗扩散混合等方法逐步解决。
How Diffusion Works
前向过程(Forward / Diffusion Process)
给定一张真实图像 x₀,前向过程逐步添加高斯噪声,经过 T 步(通常 T=1000)后图像完全变成高斯白噪声 x_T ~ N(0, I)。这是一个固定的马尔可夫链,无需训练:
q(x_t | x_{t-1}) = N(x_t; sqrt(1-β_t)·x_{t-1}, β_t·I)
其中 β_t 是预定义的噪声调度(noise schedule),控制每步添加的噪声量。一个关键性质是:我们可以直接从 x₀ 一步计算任意 t 时刻的加噪结果:
x_t = sqrt(α̅_t)·x₀ + sqrt(1-α̅_t)·ε,其中 ε ~ N(0, I)
这极大地提高了训练效率。
反向过程(Reverse / Denoising Process)
反向过程学习从噪声中恢复数据。模型 p_θ(x_{t-1} | x_t) 预测在给定带噪图像 x_t 时,如何消除一步噪声。核心训练目标是预测当前步添加的噪声 ε:
L = E_{t, x₀, ε} [ || ε - ε_θ(x_t, t) ||² ]
即让模型 ε_θ 学会预测 t 时刻的噪声 ε,然后通过减去预测噪声来去噪一步。
DDPM(Denoising Diffusion Probabilistic Models)
Ho et al.(2020)的 DDPM 论文是扩散模型复兴的里程碑。它证明了:
- 简单的 MSE 噪声预测损失可以训练高质量生成模型
- 无需对抗训练,生成质量即与 GAN 相当
- 但需要 1000 步推理,极慢
DDIM(Denoising Diffusion Implicit Models)
Song et al.(2021)提出 DDIM,通过非马尔可夫采样将推理步数从 1000 降至 50-100 步,同时保持生成质量。核心技巧:反向过程不再严格是马尔可夫链,而是可以直接跳跃到更早的时间步。
Conditioning & Text-to-Image
条件扩散
无条件扩散只能生成随机图像。要实现文本到图像(Text-to-Image),需要将条件信息(文本嵌入)注入去噪过程。
交叉注意力(Cross-Attention)
文本 prompt 通过文本编码器(如 CLIP、T5)编码为嵌入序列,然后通过交叉注意力层注入 U-Net 的每一层:
Attention(Q, K, V) = softmax(Q·K^T / sqrt(d))·V
其中 Q 来自图像特征,K、V 来自文本嵌入。这使得模型在去噪的每一步都能"看到"文本描述,并根据文本调整生成内容。
Classifier-Free Guidance(CFG)
CFG(Ho & Salimans, 2022)是扩散模型中最重要的采样技术之一。它的核心思想是在条件生成和无条件生成之间插值,以增强文本对齐:
ε̃_θ(z_t, c) = ε_θ(z_t, ∅) + w·(ε_θ(z_t, c) - ε_θ(z_t, ∅))
- w=1:正常条件生成
- w>1(通常 7.5-12):增强 prompt 遵循度(代价是多样性降低)
- w<1:降低 prompt 影响,增加多样性
训练时以一定概率(通常 10%)将条件 c 替换为 ∅(空文本),使模型同时学会条件和无条件预测。
Latent Diffusion (LDM)
潜在空间扩散
Stable Diffusion 的核心创新来自 Rombach et al.(2022)的 Latent Diffusion Models(LDM)。关键洞察:不在高维像素空间做扩散,而是在低维潜在空间做。
架构:
文本 Prompt → 文本编码器(CLIP) → 交叉注意力 → U-Net(潜在空间去噪)
↑
像素图像 → VAE 编码器 → 潜在表示 z₀ → 加噪 → z_t → U-Net → z₀' → VAE 解码器 → 生成图像- VAE 编码器:将 512×512×3 的像素图像压缩为 64×64×4 的潜在表示(压缩率约 48 倍)
- U-Net:在潜在空间执行去噪,计算量大幅降低
- VAE 解码器:将去噪后的潜在表示解码回像素空间
优势:
- 计算量降低 ~90%,单张 512×512 图像可在消费级 GPU 上生成
- 可在更小的潜在空间上训练,数据效率更高
- VAE 的潜在空间具有良好的结构化特性
Stable Diffusion 版本演进
| 版本 | 发布时间 | 核心变化 |
|---|---|---|
| SD 1.4/1.5 | 2022 | 基于 LAION-5B 训练,860M 参数 U-Net,文本编码器为 CLIP ViT-L |
| SD 2.0/2.1 | 2022 | 改用 OpenCLIP,增加 depth-to-image、inpainting 能力 |
| SDXL | 2023 | 参数翻倍至 2.6B,引入双文本编码器(CLIP + OpenCLIP),支持 1024×1024 |
| SD 3 | 2024 | 改用 MMDiT(Diffusion Transformer),集成 T5-XXL 文本编码器,支持 16 通道潜在空间 |
| SD 3.5 | 2024 | 改进 MMDiT 架构,增强 prompt 理解和排版能力 |
Architecture Innovations
U-Net(默认骨干网络)
U-Net 最初用于医学图像分割,但在扩散模型中被证明是理想的去噪骨干:
- 编码器-解码器结构:下采样提取多尺度特征,上采样恢复空间分辨率
- 跳跃连接(Skip Connections):编码器每层的特征直接传递到解码器对应层,保留细节信息
- 自注意力 + 交叉注意力:分别在空间维度建模全局依赖,在文本条件维度对齐语义
DiT(Diffusion Transformer)
Peebles & Xie(2023)的 DiT 标志着一个重要转折:用 Transformer 替换 U-Net 作为扩散骨干。
核心设计:
- 将潜在表示切分为 patch tokens(类似 ViT)
- 使用 adaLN(adaptive Layer Norm)或 adaLN-Zero 将时间步 t 和条件 c 注入 Transformer 块
- 缩放不变性:Transformer 的自注意力天然适合处理不同分辨率的潜在表示
优势:
- 更好的扩展性:Transformer 架构的缩放规律(Scaling Laws)可迁移到视觉生成
- 统一架构:同一 Transformer 可处理图像、视频、3D 等多种模态
- 计算效率随参数规模可预测增长
采用 DiT 的系统:
- Stable Diffusion 3.0/3.5:使用 MMDiT(Multi-Modal Diffusion Transformer)
- Sora(OpenAI):大规模 DiT 用于视频生成
- PixArt-α/Σ(华为):高效 DiT 训练
MMDiT(Multi-Modal Diffusion Transformer)
SD3 引入的 MMDiT 是对 DiT 的重要改进:不再使用交叉注意力(cross-attention)将文本注入图像,而是将文本和图像 tokens 在同一个 Transformer 块中联合处理,类似于 Transformer Architecture 的 encoder-decoder 融合。
每层 MMDiT 块同时处理两组 tokens(图像 tokens + 文本 tokens),共享注意力权重但有自己的前馈网络。这使得文本和图像之间的交互更加深层和灵活。
Flow Matching
Flow Matching 是扩散的一种替代框架(Lipman et al., 2023; Rectified Flow),被 Stability AI 和 Black Forest Labs 采用。它不是预测噪声,而是学习一个从噪声到数据的连续概率流(probability flow)。核心优势:
- 更少的推理步数(通常 20-30 步即可高质量生成)
- 理论更简洁:直接学习向量场(vector field)而非噪声预测
- 与扩散架构兼容:可以用 U-Net 或 DiT 作为骨干
Video & Multi-Frame Generation
视频生成比图像生成难得多:不仅要保证每一帧的质量,还要保证帧间一致性(temporal consistency)——同一物体的外形、位置、运动需要在连续帧中平滑变化。
Sora(OpenAI, 2024)
Sora 是扩散模型在视频生成的里程碑。核心设计:
- DiT 骨干:将视频片段切分为时空 patches(spacetime patches),用 DiT 处理
- 潜在空间:使用 VAE 压缩视频帧到潜在空间
- 无裁剪训练:直接在原始分辨率、原始宽高比的视频上训练
- 语言理解:使用 DALL·E 3 的 re-captioning 技术,为视频生成详细文本描述
Sora 能生成长达 60 秒的一致视频,展示出对物理世界运动规律(如水、毛发、光影)的理解能力,尽管并不完美。
时序一致性技术
- Causal Attention:帧的注意力只能看到当前及之前的帧,保证因果性
- Temporal Attention:在空间注意力之外,增加时间维度的注意力层,建模跨帧关系
- 3D U-Net / 3D DiT:将 2D 空间卷积/注意力扩展为 3D(空间+时间)
- 条件帧:用前一帧作为条件输入,逐帧生成
其他视频扩散模型
| 模型 | 机构 | 特点 |
|---|---|---|
| WALT | Window Attention Latent Transformer,联合图像和视频训练 | |
| Veo 3 | 最新一代视频生成模型,支持高分辨率、长视频、精确语义控制 | |
| VideoLDM | NVIDIA | 基于 Stable Diffusion 1.5 的视频微调 |
| Emu Video | Meta | 两阶段生成:先文本→图像,再图像→视频 |
Audio Generation
扩散模型在音频生成中也取得了显著成功。核心思路是将音频转换为频谱图(spectrogram) 或音频潜在编码,然后在其上执行扩散过程。
| 模型 | 机构 | 方式 |
|---|---|---|
| AudioLDM | 香港科技大学 | 在 CLAP 潜在空间上进行潜在扩散,文本→音频 |
| MusicGen | Meta | 基于单级 Transformer 架构,编解码器 + 扩散 |
| Stable Audio | Stability AI | 基于 VAE + DiT 的音频扩散,支持长音频生成 |
| Stable Audio Open | Stability AI | 开源版本,支持音效、乐器、环境声 |
音频扩散的优势在于可控性和连续性:通过文本 prompt 精确控制声音内容、风格、长度,且能生成自然平滑的音频流。
Challenges
推理速度
扩散模型最大的实际瓶颈:生成一张图像需要多次前向传播(DDPM 需 1000 步,DDIM 需 50 步,流匹配需 20-30 步)。相比之下 GAN 只需 1 步。缓解方案:
- 扩散蒸馏(Diffusion Distillation):将多步扩散蒸馏为 1-4 步(如 Progressive Distillation、LCM、Adversarial Diffusion Distillation)
- 一致性模型(Consistency Models):Song et al.(2023)直接学习从噪声到数据的单步映射
- 对抗扩散混合:用 GAN 损失微调扩散模型,实现 1-4 步生成
这些技术与 Model Inference & Deployment 和 Model Quantization 结合,正使扩散模型在端侧设备上运行成为可能。
Prompt 遵循与生成质量
- 文字渲染(Text Render):在图像中生成准确的文字(如海报上的标题)仍是挑战,SD3/FLUX 通过 T5 编码器有所改善
- 手部和解剖结构:手指计数、人体姿势一致性是老问题,可通过更高质量的训练数据和 LoRA Fine-tuning 缓解
- 组合性(Compositionality):生成符合复杂 prompt 描述的物体关系(如"红色杯子在蓝色桌子左边")仍然困难
AI 生成内容检测
随着扩散模型质量接近真实,检测 AI 生成内容变得至关重要。方法包括:
- 水印:Stable Diffusion 3 等内置不可见水印
- C2PA 标准:内容来源和真实性验证
- 扩散反检测:基于扩散模型的反向去噪检测方法
这涉及更广泛的 AI Safety & Alignment 和伦理考量。
Relationship to LLMs
扩散模型和自回归语言模型(LLM)代表两种不同的生成范式:
| 维度 | 自回归(AR) | 扩散 |
|---|---|---|
| 生成方向 | 从左到右、顺序生成 | 从噪声到数据、迭代去噪 |
| 采样方式 | 逐个 token 生成 | 一次生成整个数据 |
| 训练目标 | 下一个 token 预测 | 噪声预测 |
| 推理步数 | 1 步/token(但 token 很多) | 多步(20-1000) |
| 视觉应用 | ViT + AR(如 DALL·E 1) | 扩散(当前主导) |
混合架构
一个重要的研究方向是融合扩散和自回归的优势:
- MAR(Masked AutoRegressive):Meta 提出的框架,将扩散的迭代去噪思想融入自回归生成,在图像生成上取得 SOTA
- 扩散 + LLM 共享 Transformer:如 DiT 的 Transformer Architecture 启示——如果扩散和 LLM 都基于 Transformer,它们的架构差异仅在注意力掩码和条件注入方式
- Token 化扩散:将扩散应用于离散 token 空间(如 VQ-VAE + 离散扩散),弥合图像生成和文本生成的鸿沟
长远趋势
随着 Multimodal Models 的发展,图像生成和语言生成正在走向统一架构。Gemini、GPT-4V 等模型已能同时理解图像和文本;下一代架构可能会在同一个模型中同时支持自回归(文本)和扩散(图像/视频)生成,共享同一个 Transformer 骨干。
Related Concepts
- 生成范式:Multimodal Models、Transformer Architecture
- 训练与部署:Scaling Laws、Fine-tuning、Model Inference & Deployment、Model Quantization
- 质量与安全:AI Hallucination、AI Safety & Alignment
- 系统集成:Retrieval Augmented Generation
Open Questions
- 扩散模型能否达到 GAN 级别的单步推理速度而不牺牲质量?
- 扩散+自回归的混合架构是否是通往通用生成模型的路径?
- 视频扩散中的物理一致性(重力、碰撞、光照)如何根本性解决?
- 图像/视频扩散模型是否真正"理解"视觉概念,还是只是学习像素分布?
- 音频扩散在音乐生成中的版权和伦理问题如何解决?
Sources
- raw/articles/diffusion-models-research-2026-04-26.md
- Ho et al. "Denoising Diffusion Probabilistic Models" (DDPM), 2020
- Song et al. "Denoising Diffusion Implicit Models" (DDIM), 2021
- Rombach et al. "High-Resolution Image Synthesis with Latent Diffusion Models" (LDM), 2022
- Ho & Salimans. "Classifier-Free Diffusion Guidance" (CFG), 2022
- Peebles & Xie. "Scalable Diffusion Models with Transformers" (DiT), 2023
- Song et al. "Consistency Models" (CM), 2023
- Lipman et al. "Flow Matching for Generative Modeling" (Flow Matching), 2023
- Brooks et al. "Video Generation Models as World Simulators" (Sora), 2024