Skip to content

Transformer vs SSM (Mamba / RWKV / Jamba)

Transformer 自 2017 年以来一直是 LLM 的绝对主流架构。但 quadratic attention bottleneck(O(n²)) 使其在长序列场景下面临根本性的计算效率挑战。状态空间模型(SSM,State Space Models)——包括 Mamba、RWKV 以及混合架构 Jamba ——作为线性复杂度替代方案崛起,在 2024–2026 年引发了近年来最激烈的架构争论。本页从理论、实践、硬件、生态四个维度展开深度对比。

The Architecture Landscape

Transformer 的统治与瓶颈

自 Vaswani 等人 2017 年发表 "Attention Is All You Need" 以来,Transformer Architecture 主导了几乎所有主流 LLM:LlamaQwenDeepSeek、GPT 系列、Claude 系列等,无一例外。

核心瓶颈:self-attention 的计算复杂度为 O(n²),其中 n 是序列长度。

  • 每个 token 需与所有之前 token 计算注意力权重
  • 内存占用随序列长度平方增长(KV cache 对于长上下文尤其昂贵)
  • 在 100K+ token 场景下,prefill 延迟和显存消耗成为主要瓶颈
  • DeepSeek V4 的 CSA(Compressed Sparse Attention)虽然大幅缓解了该问题,但并未从数学上改变 quadratic 性质

SSM 的崛起

状态空间模型源于控制理论中的连续时间线性 ODE(常微分方程),被引入深度学习用于序列建模。2023–2024 年间,SSM 从学术好奇变成了真正的 Transformer 竞争者:

  • Mamba(Albert Gu & Tri Dao, 2023):选择性 SSM,数据依赖的状态转移
  • RWKV(Bo Peng 等人):RWKV 是一种线性 attention 变体,将 Transformer 训练优势与 RNN 推理效率结合
  • Jamba(AI21 Labs, 2024):首个混合架构,在单一模型中交错使用 Transformer attention 层和 Mamba SSM 层

How SSMs Work

State Space Models: Core Idea

经典 SSM 将序列建模为一个连续时间线性 ODE 系统:

h'(t) = A h(t) + B x(t)
y(t)  = C h(t) + D x(t)

其中 h(t) 是隐藏状态,x(t) 是输入信号,y(t) 是输出。对于深度学习,SSM 被离散化为循环形式,实现 线性时间 O(n) 计算恒定推理内存——与 Transformer 的 O(n²) attention 形成鲜明对比。

Mamba: Selective SSM

Mamba 的核心创新是 选择性状态空间(selective state space)

  • 传统 SSM 的 A、B、C 矩阵是输入无关的(固定的线性系统)
  • Mamba 让这些参数 依赖于输入(data-dependent),使模型能动态决定关注什么、遗忘什么
  • 使用 parallel scan 算法实现高效训练(类似 RNN 的并行化)
  • 引入 hardware-aware state expansion(flash-style 内核写入),避免显存瓶颈
  • 不使用 attention,不使用 MLP 块——完全基于 SSM

关键结果:在语言建模质量上匹配同等规模 Transformer,推理时 恒定时间 per token,理论上支持无限上下文。

RWKV: Linear Attention Variant

RWKV 采取不同的路径——将 Transformer-style attention 重写为 线性复杂度的 RNN 形式

  • 使用 time-mixchannel-mix 组件替代传统 attention 和 FFN
  • 推理时表现为 RNN(恒定内存),训练时可并行化
  • 数学框架更接近 attention 的线性化(linear attention),而非控制理论的 SSM
  • 在较小规模上表现优秀,但扩展到 70B+ 时面临挑战

Jamba: Hybrid Architecture

AI21 Labs 的 Jamba 是首个大规模混合架构:

  • 在单一模型中交错排列 Transformer attention 层和 Mamba SSM 层
  • 每 N 个 Mamba 层后插入一个 attention 层(例如 8:1 比例)
  • 结合 Mixture-of-Experts (MoE),进一步提升参数效率
  • 目标:获取 SSM 的推理效率的同时保留 attention 的召回和专注能力
  • 实际效果:在大部分任务上匹配纯 Transformer 质量,同时大幅降低 KV cache 需求

Comparison Table

维度TransformerMamba (纯 SSM)RWKVJamba (混合)
Attention 复杂度O(n²) quadraticO(n) linearO(n) linearO(n) 平均 (混合)
上下文扩展能力困难(KV cache 随 n 线性增长)理论上无限理论上无限大幅优于纯 Transformer
推理速度 (per token)O(n) KV cache 增长 → 越跑越慢O(1) 恒定时间O(1) 恒定时间接近 O(1)
训练稳定性非常成熟(大量经验积累)较新(需 layer norm 技巧)中等较好(继承双方经验)
语言基准质量黄金标准匹敌(但 recall 略弱)中小模型优秀,大模型待验证接近纯 Transformer
召回/检索任务强(attention 精确定位)弱(状态压缩模糊性)中-强(attention 层补救)
多模态支持主导(文本+视觉+语音+视频)有限(主要文本)有限有限(需额外适配)
生态成熟度最成熟(HF、vLLM、TGI 全面支持)快速增长但碎片化小众社区较新(主要 AI21 使用)
硬件优化高度优化(Flash Attention, PagedAttention)需自定义 CUDA 内核需自定义内核需混合内核支持

Detailed Analysis

1. Context Length: The Defining Difference

Transformer 的 long context 依赖 attention 优化(Flash Attention、稀疏 attention、CSA 等),但这些是 缓解手段,而非解决根本问题。KV cache 始终随序列长度线性增长。

SSM 在此维度有 理论上的绝对优势

  • Mamba 的 hidden state 大小是固定的(独立于序列长度)
  • 这意味著处理 1K token 和 1M token 的状态内存完全相同
  • Mamba 官方已测试到 1M token 以上,质量未出现明显退化
  • 但代价是:状态是压缩的——模型必须将全部历史信息塞进固定大小的 hidden state

这引出了 SSM 的根本权衡:固定状态大小 = 恒定内存,但也是信息瓶颈

2. Inference: Throughput vs Latency

推理阶段是 SSM 表现最亮眼的维度:

场景TransformerMamba
Prefill(首批 token)O(n²) → 长序列非常慢O(n) → 长序列快
Decode(逐 token)KV cache 增长 → O(t) 每步O(1) 每步恒定
长序列吞吐显存受限理论无限扩展
批处理高度优化(vLLM continuous batching)仍在优化(batching 效率待提升)

关键洞察:在当前硬件上,SSM 的 O(1) decode 优势被 GPU compute-bound 特性部分抵消。Transformer decode 是 memory-bound(从 KV cache 读取),而 SSM decode 是 compute-bound(需要实际计算状态更新)。这意味着在没有专用内核的情况下,SSM 在 GPU 上并不总是更快。

3. Quality: The Recall Gap

在标准语言建模基准(如 WikiText-103、PG-19)上,Mamba 匹配甚至超越同等参数的 Transformer。但在 召回密集型任务(需精确回忆远距离信息)上存在差距:

  • Transformer attention 可以直接"指向"第 1,024 个 token
  • Mamba 需要将第 1,024 个 token 的信息压缩到 hidden state 中,再在生成时"回忆"出来
  • 信息经过压缩 → 丢失 → 类似"手机号码背诵"问题

这也是 Jamba 混合架构的动机:用 attention 层负责精确召回,用 SSM 层负责高效处理和长程依赖

4. Multimodal: Transformer Remains King

当前所有主流多模态模型(GPT-4V、Claude 3、Gemini、LLaVA、Qwen-VL)均基于 Transformer。SSM 在视觉/多模态领域的探索仍处于早期阶段:

  • Vision Mamba 已被提出但尚未达到 ViT/Transformer 同等质量
  • 图像/视频作为 2D/3D 信号,attention 的"全局交互"特性天然契合
  • SSM 的因果(causal)序列处理范式对于非序列模态需要额外适配

Hybrid Approaches

Jamba: The Best of Both Worlds

AI21 Labs 的 Jamba 是目前最成熟的混合架构,核心设计:

输入 → [Mamba → Mamba → Attention → Mamba → ... → MoE → 输出]
  • Mamba 层:承担主要的序列处理负载,保持 O(n) 复杂度
  • Attention 层:每隔若干 SSM 层插入,提供精确的上下文交互和召回能力
  • MoE 层:FFN 部分使用 Mixture-of-Experts 提升参数效率
  • KV cache:仅 attention 层需要缓存,相比纯 Transformer 降低 80%+

Other Hybrid Directions

  • S6 + Attention mixing:研究者尝试在同一层内混合 S6 状态空间模型和 attention 机制
  • Gated SSM + sliding window attention:结合 SSM 的长程能力和窗口 attention 的局部精度
  • Layer-level hybrid:不同层选择不同架构(深层用 attention,浅层用 SSM)

混合架构的实际效果:在 LLM Evaluation 基准上,Jamba 约匹配同等规模的 Mixtral 8x7B,但推理时 KV cache 减少 70-80%。这是一个"足够好"的质量 + 大幅降低部署成本的组合。

Hardware Reality

SSMs Are Compute-Bound

这是一个经常被忽视的关键细节:

性质Transformer DecodeSSM Decode
瓶颈类型Memory-bound (KV cache 读取)Compute-bound (状态更新)
GPU 利用率低(带宽受限)中-高(计算受限)
关键操作大矩阵 × 小 KV 向量中等矩阵 × 状态向量
优化现状高度优化(FlashAttention, PagedAttention, vLLM)相对初期
实际速度 (GPU)批量大时更快单序列时更快

这意味着:在 NVIDIA H100/B200 上,Transformers 在典型生产负载(大 batch, continuous batching)下可能仍然更快。SSM 的真正优势体现在:

  • 单序列推理(交互式对话、流式生成)
  • 边缘/CPU 设备(SSM 的 compute-bound 特性更适合非 GPU 场景)
  • 超长上下文(Transformer 被 KV cache 显存限制压垮的场景)

Custom Kernels Matter

Mamba 2 进一步改进了硬件亲和性——使用更高效的并行 scan 算法和更好的寄存器利用。但整体上,SSM 生态的硬件优化程度远不及 Transformer 生态。Model Quantization 工具(如 AWQ、GPTQ)主要针对 Transformer,SSM 的量化支持仍在早期。

When to Use What

Choose Transformer When

  • 通用 LLM 应用:聊天、文本生成、代码、Agent——现有生态全栈支持
  • 多模态任务:处理图像、音频、视频的任何场景
  • 高召回需求:需要精确信息定位(RAG、文档问答、知识检索)
  • 大 batch 生产推理:vLLM/TGI/vLLM 的 continuous batching 高度优化
  • 已有基础设施:现有框架、工具链、部署方案基于 Transformer
  • 团队经验:团队成员熟悉 Transformer 微调、评估、部署

Choose SSM (Mamba) When

  • 超长上下文是核心需求:100K+ tokens 且需要合理延迟
  • 边缘/移动设备推理:无 GPU 或有限计算资源
  • 单序列低延迟:交互式场景,不能 batch
  • 研究/前沿探索:对新架构感兴趣,愿意承担生态不成熟的风险
  • 成本敏感的单用户部署:小规模推理,无需昂贵 GPU

Choose Hybrid (Jamba) When

  • 需要兼顾质量和效率:不想在 recall 任务上妥协
  • KV cache 是部署瓶颈:有多用户并发长上下文需求
  • 愿意接受较新架构:有工程能力处理自定义推理栈
  • 探索 MoE + SSM 组合:两者叠加的参数效率优势

Future Outlook

Mamba 2

Mamba 2(2024)带来了几个关键改进:更快的并行 scan、state expansion 效率提升、更好的硬件亲和性。质量接近同规模 Transformer,推理效率持续提升。Mamba 3 预计将进一步缩小 recall 差距。

Convergence Path

行业趋势指向 架构趋同(convergence)

  1. Attention 变体也在降低复杂度:MQA、GQA、Multi-Head Linear Attention、CSA 都在向 O(n) 靠近
  2. SSM 在加入 attention-like 机制:选择性状态空间 = 类似 attention 的"关注"能力
  3. 混合架构成为默认:未来可能没有"纯" Transformer 或"纯" SSM,而是动态混合

What to Watch

  • 硬件支持:NVIDIA/AMD 是否会为 SSM 优化底层 kernel?CUDA 是否原生支持 selective scan?
  • Scaling to 100B+:Mamba 能否在 100B+ 参数规模保持质量优势?
  • 多模态 SSM:Vision Mamba 能否成熟到替代 ViT?
  • 量化友好性:SSM 在 4-bit/2-bit 量化下的表现是否优于 Transformer?

Practical Advice for 2026

截至 2026 年 4 月:

  • 生产环境首选 Transformer —— 生态成熟度差距在 1-2 年内不会消失
  • 超长上下文实验用 Mamba/Jamba —— 在 500K+ 场景有明显优势
  • 关注且只关注混合架构 —— 纯 SSM 的 future 是混合架构的一部分
  • 不要忽视推理硬件现实 —— SSM 在当前 GPU 上不是魔法般的快,需要专用优化
  • 你的第一选择仍然是 LlamaQwenDeepSeek —— 它们都是 Transformer 系,并且短期内不会改变

Sources

  • Vaswani et al., "Attention Is All You Need" (2017) — 原始 Transformer 论文
  • Gu & Dao, "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" (2023)
  • AI21 Labs, "Jamba: A Hybrid Transformer-Mamba Model" (2024)
  • RWKV: "Rethinking the Attention Mechanism with RWKV" (2023)
  • Dao et al., "FlashAttention: Fast and Memory-Efficient Exact Attention" (2022)
  • Model Inference & Deployment 页面 — 推理优化技巧
  • Scaling Laws 页面 — 架构选择与 scaling 关系

AI Knowledge Base — 持续积累