Appearance
Transformer vs SSM (Mamba / RWKV / Jamba)
Transformer 自 2017 年以来一直是 LLM 的绝对主流架构。但 quadratic attention bottleneck(O(n²)) 使其在长序列场景下面临根本性的计算效率挑战。状态空间模型(SSM,State Space Models)——包括 Mamba、RWKV 以及混合架构 Jamba ——作为线性复杂度替代方案崛起,在 2024–2026 年引发了近年来最激烈的架构争论。本页从理论、实践、硬件、生态四个维度展开深度对比。
The Architecture Landscape
Transformer 的统治与瓶颈
自 Vaswani 等人 2017 年发表 "Attention Is All You Need" 以来,Transformer Architecture 主导了几乎所有主流 LLM:Llama、Qwen、DeepSeek、GPT 系列、Claude 系列等,无一例外。
核心瓶颈:self-attention 的计算复杂度为 O(n²),其中 n 是序列长度。
- 每个 token 需与所有之前 token 计算注意力权重
- 内存占用随序列长度平方增长(KV cache 对于长上下文尤其昂贵)
- 在 100K+ token 场景下,prefill 延迟和显存消耗成为主要瓶颈
- DeepSeek V4 的 CSA(Compressed Sparse Attention)虽然大幅缓解了该问题,但并未从数学上改变 quadratic 性质
SSM 的崛起
状态空间模型源于控制理论中的连续时间线性 ODE(常微分方程),被引入深度学习用于序列建模。2023–2024 年间,SSM 从学术好奇变成了真正的 Transformer 竞争者:
- Mamba(Albert Gu & Tri Dao, 2023):选择性 SSM,数据依赖的状态转移
- RWKV(Bo Peng 等人):RWKV 是一种线性 attention 变体,将 Transformer 训练优势与 RNN 推理效率结合
- Jamba(AI21 Labs, 2024):首个混合架构,在单一模型中交错使用 Transformer attention 层和 Mamba SSM 层
How SSMs Work
State Space Models: Core Idea
经典 SSM 将序列建模为一个连续时间线性 ODE 系统:
h'(t) = A h(t) + B x(t)
y(t) = C h(t) + D x(t)其中 h(t) 是隐藏状态,x(t) 是输入信号,y(t) 是输出。对于深度学习,SSM 被离散化为循环形式,实现 线性时间 O(n) 计算 和 恒定推理内存——与 Transformer 的 O(n²) attention 形成鲜明对比。
Mamba: Selective SSM
Mamba 的核心创新是 选择性状态空间(selective state space):
- 传统 SSM 的 A、B、C 矩阵是输入无关的(固定的线性系统)
- Mamba 让这些参数 依赖于输入(data-dependent),使模型能动态决定关注什么、遗忘什么
- 使用 parallel scan 算法实现高效训练(类似 RNN 的并行化)
- 引入 hardware-aware state expansion(flash-style 内核写入),避免显存瓶颈
- 不使用 attention,不使用 MLP 块——完全基于 SSM
关键结果:在语言建模质量上匹配同等规模 Transformer,推理时 恒定时间 per token,理论上支持无限上下文。
RWKV: Linear Attention Variant
RWKV 采取不同的路径——将 Transformer-style attention 重写为 线性复杂度的 RNN 形式:
- 使用 time-mix 和 channel-mix 组件替代传统 attention 和 FFN
- 推理时表现为 RNN(恒定内存),训练时可并行化
- 数学框架更接近 attention 的线性化(linear attention),而非控制理论的 SSM
- 在较小规模上表现优秀,但扩展到 70B+ 时面临挑战
Jamba: Hybrid Architecture
AI21 Labs 的 Jamba 是首个大规模混合架构:
- 在单一模型中交错排列 Transformer attention 层和 Mamba SSM 层
- 每 N 个 Mamba 层后插入一个 attention 层(例如 8:1 比例)
- 结合 Mixture-of-Experts (MoE),进一步提升参数效率
- 目标:获取 SSM 的推理效率的同时保留 attention 的召回和专注能力
- 实际效果:在大部分任务上匹配纯 Transformer 质量,同时大幅降低 KV cache 需求
Comparison Table
| 维度 | Transformer | Mamba (纯 SSM) | RWKV | Jamba (混合) |
|---|---|---|---|---|
| Attention 复杂度 | O(n²) quadratic | O(n) linear | O(n) linear | O(n) 平均 (混合) |
| 上下文扩展能力 | 困难(KV cache 随 n 线性增长) | 理论上无限 | 理论上无限 | 大幅优于纯 Transformer |
| 推理速度 (per token) | O(n) KV cache 增长 → 越跑越慢 | O(1) 恒定时间 | O(1) 恒定时间 | 接近 O(1) |
| 训练稳定性 | 非常成熟(大量经验积累) | 较新(需 layer norm 技巧) | 中等 | 较好(继承双方经验) |
| 语言基准质量 | 黄金标准 | 匹敌(但 recall 略弱) | 中小模型优秀,大模型待验证 | 接近纯 Transformer |
| 召回/检索任务 | 强(attention 精确定位) | 弱(状态压缩模糊性) | 中 | 中-强(attention 层补救) |
| 多模态支持 | 主导(文本+视觉+语音+视频) | 有限(主要文本) | 有限 | 有限(需额外适配) |
| 生态成熟度 | 最成熟(HF、vLLM、TGI 全面支持) | 快速增长但碎片化 | 小众社区 | 较新(主要 AI21 使用) |
| 硬件优化 | 高度优化(Flash Attention, PagedAttention) | 需自定义 CUDA 内核 | 需自定义内核 | 需混合内核支持 |
Detailed Analysis
1. Context Length: The Defining Difference
Transformer 的 long context 依赖 attention 优化(Flash Attention、稀疏 attention、CSA 等),但这些是 缓解手段,而非解决根本问题。KV cache 始终随序列长度线性增长。
SSM 在此维度有 理论上的绝对优势:
- Mamba 的 hidden state 大小是固定的(独立于序列长度)
- 这意味著处理 1K token 和 1M token 的状态内存完全相同
- Mamba 官方已测试到 1M token 以上,质量未出现明显退化
- 但代价是:状态是压缩的——模型必须将全部历史信息塞进固定大小的 hidden state
这引出了 SSM 的根本权衡:固定状态大小 = 恒定内存,但也是信息瓶颈。
2. Inference: Throughput vs Latency
推理阶段是 SSM 表现最亮眼的维度:
| 场景 | Transformer | Mamba |
|---|---|---|
| Prefill(首批 token) | O(n²) → 长序列非常慢 | O(n) → 长序列快 |
| Decode(逐 token) | KV cache 增长 → O(t) 每步 | O(1) 每步恒定 |
| 长序列吞吐 | 显存受限 | 理论无限扩展 |
| 批处理 | 高度优化(vLLM continuous batching) | 仍在优化(batching 效率待提升) |
关键洞察:在当前硬件上,SSM 的 O(1) decode 优势被 GPU compute-bound 特性部分抵消。Transformer decode 是 memory-bound(从 KV cache 读取),而 SSM decode 是 compute-bound(需要实际计算状态更新)。这意味着在没有专用内核的情况下,SSM 在 GPU 上并不总是更快。
3. Quality: The Recall Gap
在标准语言建模基准(如 WikiText-103、PG-19)上,Mamba 匹配甚至超越同等参数的 Transformer。但在 召回密集型任务(需精确回忆远距离信息)上存在差距:
- Transformer attention 可以直接"指向"第 1,024 个 token
- Mamba 需要将第 1,024 个 token 的信息压缩到 hidden state 中,再在生成时"回忆"出来
- 信息经过压缩 → 丢失 → 类似"手机号码背诵"问题
这也是 Jamba 混合架构的动机:用 attention 层负责精确召回,用 SSM 层负责高效处理和长程依赖。
4. Multimodal: Transformer Remains King
当前所有主流多模态模型(GPT-4V、Claude 3、Gemini、LLaVA、Qwen-VL)均基于 Transformer。SSM 在视觉/多模态领域的探索仍处于早期阶段:
- Vision Mamba 已被提出但尚未达到 ViT/Transformer 同等质量
- 图像/视频作为 2D/3D 信号,attention 的"全局交互"特性天然契合
- SSM 的因果(causal)序列处理范式对于非序列模态需要额外适配
Hybrid Approaches
Jamba: The Best of Both Worlds
AI21 Labs 的 Jamba 是目前最成熟的混合架构,核心设计:
输入 → [Mamba → Mamba → Attention → Mamba → ... → MoE → 输出]- Mamba 层:承担主要的序列处理负载,保持 O(n) 复杂度
- Attention 层:每隔若干 SSM 层插入,提供精确的上下文交互和召回能力
- MoE 层:FFN 部分使用 Mixture-of-Experts 提升参数效率
- KV cache:仅 attention 层需要缓存,相比纯 Transformer 降低 80%+
Other Hybrid Directions
- S6 + Attention mixing:研究者尝试在同一层内混合 S6 状态空间模型和 attention 机制
- Gated SSM + sliding window attention:结合 SSM 的长程能力和窗口 attention 的局部精度
- Layer-level hybrid:不同层选择不同架构(深层用 attention,浅层用 SSM)
混合架构的实际效果:在 LLM Evaluation 基准上,Jamba 约匹配同等规模的 Mixtral 8x7B,但推理时 KV cache 减少 70-80%。这是一个"足够好"的质量 + 大幅降低部署成本的组合。
Hardware Reality
SSMs Are Compute-Bound
这是一个经常被忽视的关键细节:
| 性质 | Transformer Decode | SSM Decode |
|---|---|---|
| 瓶颈类型 | Memory-bound (KV cache 读取) | Compute-bound (状态更新) |
| GPU 利用率 | 低(带宽受限) | 中-高(计算受限) |
| 关键操作 | 大矩阵 × 小 KV 向量 | 中等矩阵 × 状态向量 |
| 优化现状 | 高度优化(FlashAttention, PagedAttention, vLLM) | 相对初期 |
| 实际速度 (GPU) | 批量大时更快 | 单序列时更快 |
这意味着:在 NVIDIA H100/B200 上,Transformers 在典型生产负载(大 batch, continuous batching)下可能仍然更快。SSM 的真正优势体现在:
- 单序列推理(交互式对话、流式生成)
- 边缘/CPU 设备(SSM 的 compute-bound 特性更适合非 GPU 场景)
- 超长上下文(Transformer 被 KV cache 显存限制压垮的场景)
Custom Kernels Matter
Mamba 2 进一步改进了硬件亲和性——使用更高效的并行 scan 算法和更好的寄存器利用。但整体上,SSM 生态的硬件优化程度远不及 Transformer 生态。Model Quantization 工具(如 AWQ、GPTQ)主要针对 Transformer,SSM 的量化支持仍在早期。
When to Use What
Choose Transformer When
- 通用 LLM 应用:聊天、文本生成、代码、Agent——现有生态全栈支持
- 多模态任务:处理图像、音频、视频的任何场景
- 高召回需求:需要精确信息定位(RAG、文档问答、知识检索)
- 大 batch 生产推理:vLLM/TGI/vLLM 的 continuous batching 高度优化
- 已有基础设施:现有框架、工具链、部署方案基于 Transformer
- 团队经验:团队成员熟悉 Transformer 微调、评估、部署
Choose SSM (Mamba) When
- 超长上下文是核心需求:100K+ tokens 且需要合理延迟
- 边缘/移动设备推理:无 GPU 或有限计算资源
- 单序列低延迟:交互式场景,不能 batch
- 研究/前沿探索:对新架构感兴趣,愿意承担生态不成熟的风险
- 成本敏感的单用户部署:小规模推理,无需昂贵 GPU
Choose Hybrid (Jamba) When
- 需要兼顾质量和效率:不想在 recall 任务上妥协
- KV cache 是部署瓶颈:有多用户并发长上下文需求
- 愿意接受较新架构:有工程能力处理自定义推理栈
- 探索 MoE + SSM 组合:两者叠加的参数效率优势
Future Outlook
Mamba 2
Mamba 2(2024)带来了几个关键改进:更快的并行 scan、state expansion 效率提升、更好的硬件亲和性。质量接近同规模 Transformer,推理效率持续提升。Mamba 3 预计将进一步缩小 recall 差距。
Convergence Path
行业趋势指向 架构趋同(convergence):
- Attention 变体也在降低复杂度:MQA、GQA、Multi-Head Linear Attention、CSA 都在向 O(n) 靠近
- SSM 在加入 attention-like 机制:选择性状态空间 = 类似 attention 的"关注"能力
- 混合架构成为默认:未来可能没有"纯" Transformer 或"纯" SSM,而是动态混合
What to Watch
- 硬件支持:NVIDIA/AMD 是否会为 SSM 优化底层 kernel?CUDA 是否原生支持 selective scan?
- Scaling to 100B+:Mamba 能否在 100B+ 参数规模保持质量优势?
- 多模态 SSM:Vision Mamba 能否成熟到替代 ViT?
- 量化友好性:SSM 在 4-bit/2-bit 量化下的表现是否优于 Transformer?
Practical Advice for 2026
截至 2026 年 4 月:
- 生产环境首选 Transformer —— 生态成熟度差距在 1-2 年内不会消失
- 超长上下文实验用 Mamba/Jamba —— 在 500K+ 场景有明显优势
- 关注且只关注混合架构 —— 纯 SSM 的 future 是混合架构的一部分
- 不要忽视推理硬件现实 —— SSM 在当前 GPU 上不是魔法般的快,需要专用优化
- 你的第一选择仍然是 Llama、Qwen、DeepSeek —— 它们都是 Transformer 系,并且短期内不会改变
Sources
- Vaswani et al., "Attention Is All You Need" (2017) — 原始 Transformer 论文
- Gu & Dao, "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" (2023)
- AI21 Labs, "Jamba: A Hybrid Transformer-Mamba Model" (2024)
- RWKV: "Rethinking the Attention Mechanism with RWKV" (2023)
- Dao et al., "FlashAttention: Fast and Memory-Efficient Exact Attention" (2022)
- Model Inference & Deployment 页面 — 推理优化技巧
- Scaling Laws 页面 — 架构选择与 scaling 关系