Transformer vs SSM (Mamba / RWKV / Jamba)

Transformer 自 2017 年以来一直是 LLM 的绝对主流架构。但 quadratic attention bottleneck（O(n²)） 使其在长序列场景下面临根本性的计算效率挑战。状态空间模型（SSM，State Space Models）——包括 Mamba、RWKV 以及混合架构 Jamba ——作为线性复杂度替代方案崛起，在 2024–2026 年引发了近年来最激烈的架构争论。本页从理论、实践、硬件、生态四个维度展开深度对比。

The Architecture Landscape

Transformer 的统治与瓶颈

自 Vaswani 等人 2017 年发表 "Attention Is All You Need" 以来，Transformer Architecture 主导了几乎所有主流 LLM：Llama、Qwen、DeepSeek、GPT 系列、Claude 系列等，无一例外。

核心瓶颈：self-attention 的计算复杂度为 O(n²)，其中 n 是序列长度。

每个 token 需与所有之前 token 计算注意力权重
内存占用随序列长度平方增长（KV cache 对于长上下文尤其昂贵）
在 100K+ token 场景下，prefill 延迟和显存消耗成为主要瓶颈
DeepSeek V4 的 CSA（Compressed Sparse Attention）虽然大幅缓解了该问题，但并未从数学上改变 quadratic 性质

SSM 的崛起

状态空间模型源于控制理论中的连续时间线性 ODE（常微分方程），被引入深度学习用于序列建模。2023–2024 年间，SSM 从学术好奇变成了真正的 Transformer 竞争者：

Mamba（Albert Gu & Tri Dao, 2023）：选择性 SSM，数据依赖的状态转移
RWKV（Bo Peng 等人）：RWKV 是一种线性 attention 变体，将 Transformer 训练优势与 RNN 推理效率结合
Jamba（AI21 Labs, 2024）：首个混合架构，在单一模型中交错使用 Transformer attention 层和 Mamba SSM 层

How SSMs Work

State Space Models: Core Idea

经典 SSM 将序列建模为一个连续时间线性 ODE 系统：

h'(t) = A h(t) + B x(t)
y(t)  = C h(t) + D x(t)

其中 h(t) 是隐藏状态，x(t) 是输入信号，y(t) 是输出。对于深度学习，SSM 被离散化为循环形式，实现 线性时间 O(n) 计算 和 恒定推理内存——与 Transformer 的 O(n²) attention 形成鲜明对比。

Mamba: Selective SSM

Mamba 的核心创新是 选择性状态空间（selective state space）：

传统 SSM 的 A、B、C 矩阵是输入无关的（固定的线性系统）
Mamba 让这些参数 依赖于输入（data-dependent），使模型能动态决定关注什么、遗忘什么
使用 parallel scan 算法实现高效训练（类似 RNN 的并行化）
引入 hardware-aware state expansion（flash-style 内核写入），避免显存瓶颈
不使用 attention，不使用 MLP 块——完全基于 SSM

关键结果：在语言建模质量上匹配同等规模 Transformer，推理时 恒定时间 per token，理论上支持无限上下文。

RWKV: Linear Attention Variant

RWKV 采取不同的路径——将 Transformer-style attention 重写为 线性复杂度的 RNN 形式：

使用 time-mix 和 channel-mix 组件替代传统 attention 和 FFN
推理时表现为 RNN（恒定内存），训练时可并行化
数学框架更接近 attention 的线性化（linear attention），而非控制理论的 SSM
在较小规模上表现优秀，但扩展到 70B+ 时面临挑战

Jamba: Hybrid Architecture

AI21 Labs 的 Jamba 是首个大规模混合架构：

在单一模型中交错排列 Transformer attention 层和 Mamba SSM 层
每 N 个 Mamba 层后插入一个 attention 层（例如 8:1 比例）
结合 Mixture-of-Experts (MoE)，进一步提升参数效率
目标：获取 SSM 的推理效率的同时保留 attention 的召回和专注能力
实际效果：在大部分任务上匹配纯 Transformer 质量，同时大幅降低 KV cache 需求

Comparison Table

维度	Transformer	Mamba (纯 SSM)	RWKV	Jamba (混合)
Attention 复杂度	O(n²) quadratic	O(n) linear	O(n) linear	O(n) 平均 (混合)
上下文扩展能力	困难（KV cache 随 n 线性增长）	理论上无限	理论上无限	大幅优于纯 Transformer
推理速度 (per token)	O(n) KV cache 增长 → 越跑越慢	O(1) 恒定时间	O(1) 恒定时间	接近 O(1)
训练稳定性	非常成熟（大量经验积累）	较新（需 layer norm 技巧）	中等	较好（继承双方经验）
语言基准质量	黄金标准	匹敌（但 recall 略弱）	中小模型优秀，大模型待验证	接近纯 Transformer
召回/检索任务	强（attention 精确定位）	弱（状态压缩模糊性）	中	中-强（attention 层补救）
多模态支持	主导（文本+视觉+语音+视频）	有限（主要文本）	有限	有限（需额外适配）
生态成熟度	最成熟（HF、vLLM、TGI 全面支持）	快速增长但碎片化	小众社区	较新（主要 AI21 使用）
硬件优化	高度优化（Flash Attention, PagedAttention）	需自定义 CUDA 内核	需自定义内核	需混合内核支持

Detailed Analysis

1. Context Length: The Defining Difference

Transformer 的 long context 依赖 attention 优化（Flash Attention、稀疏 attention、CSA 等），但这些是 缓解手段，而非解决根本问题。KV cache 始终随序列长度线性增长。

SSM 在此维度有 理论上的绝对优势：

Mamba 的 hidden state 大小是固定的（独立于序列长度）
这意味著处理 1K token 和 1M token 的状态内存完全相同
Mamba 官方已测试到 1M token 以上，质量未出现明显退化
但代价是：状态是压缩的——模型必须将全部历史信息塞进固定大小的 hidden state

这引出了 SSM 的根本权衡：固定状态大小 = 恒定内存，但也是信息瓶颈。

2. Inference: Throughput vs Latency

推理阶段是 SSM 表现最亮眼的维度：

场景	Transformer	Mamba
Prefill（首批 token）	O(n²) → 长序列非常慢	O(n) → 长序列快
Decode（逐 token）	KV cache 增长 → O(t) 每步	O(1) 每步恒定
长序列吞吐	显存受限	理论无限扩展
批处理	高度优化（vLLM continuous batching）	仍在优化（batching 效率待提升）

关键洞察：在当前硬件上，SSM 的 O(1) decode 优势被 GPU compute-bound 特性部分抵消。Transformer decode 是 memory-bound（从 KV cache 读取），而 SSM decode 是 compute-bound（需要实际计算状态更新）。这意味着在没有专用内核的情况下，SSM 在 GPU 上并不总是更快。

3. Quality: The Recall Gap

在标准语言建模基准（如 WikiText-103、PG-19）上，Mamba 匹配甚至超越同等参数的 Transformer。但在 召回密集型任务（需精确回忆远距离信息）上存在差距：

Transformer attention 可以直接"指向"第 1,024 个 token
Mamba 需要将第 1,024 个 token 的信息压缩到 hidden state 中，再在生成时"回忆"出来
信息经过压缩 → 丢失 → 类似"手机号码背诵"问题

这也是 Jamba 混合架构的动机：用 attention 层负责精确召回，用 SSM 层负责高效处理和长程依赖。

4. Multimodal: Transformer Remains King

当前所有主流多模态模型（GPT-4V、Claude 3、Gemini、LLaVA、Qwen-VL）均基于 Transformer。SSM 在视觉/多模态领域的探索仍处于早期阶段：

Vision Mamba 已被提出但尚未达到 ViT/Transformer 同等质量
图像/视频作为 2D/3D 信号，attention 的"全局交互"特性天然契合
SSM 的因果（causal）序列处理范式对于非序列模态需要额外适配

Hybrid Approaches

Jamba: The Best of Both Worlds

AI21 Labs 的 Jamba 是目前最成熟的混合架构，核心设计：

输入 → [Mamba → Mamba → Attention → Mamba → ... → MoE → 输出]

Mamba 层：承担主要的序列处理负载，保持 O(n) 复杂度
Attention 层：每隔若干 SSM 层插入，提供精确的上下文交互和召回能力
MoE 层：FFN 部分使用 Mixture-of-Experts 提升参数效率
KV cache：仅 attention 层需要缓存，相比纯 Transformer 降低 80%+

Other Hybrid Directions

S6 + Attention mixing：研究者尝试在同一层内混合 S6 状态空间模型和 attention 机制
Gated SSM + sliding window attention：结合 SSM 的长程能力和窗口 attention 的局部精度
Layer-level hybrid：不同层选择不同架构（深层用 attention，浅层用 SSM）

混合架构的实际效果：在 LLM Evaluation 基准上，Jamba 约匹配同等规模的 Mixtral 8x7B，但推理时 KV cache 减少 70-80%。这是一个"足够好"的质量 + 大幅降低部署成本的组合。

Hardware Reality

SSMs Are Compute-Bound

这是一个经常被忽视的关键细节：

性质	Transformer Decode	SSM Decode
瓶颈类型	Memory-bound (KV cache 读取)	Compute-bound (状态更新)
GPU 利用率	低（带宽受限）	中-高（计算受限）
关键操作	大矩阵 × 小 KV 向量	中等矩阵 × 状态向量
优化现状	高度优化（FlashAttention, PagedAttention, vLLM）	相对初期
实际速度 (GPU)	批量大时更快	单序列时更快

这意味着：在 NVIDIA H100/B200 上，Transformers 在典型生产负载（大 batch, continuous batching）下可能仍然更快。SSM 的真正优势体现在：

单序列推理（交互式对话、流式生成）
边缘/CPU 设备（SSM 的 compute-bound 特性更适合非 GPU 场景）
超长上下文（Transformer 被 KV cache 显存限制压垮的场景）

Custom Kernels Matter

Mamba 2 进一步改进了硬件亲和性——使用更高效的并行 scan 算法和更好的寄存器利用。但整体上，SSM 生态的硬件优化程度远不及 Transformer 生态。Model Quantization 工具（如 AWQ、GPTQ）主要针对 Transformer，SSM 的量化支持仍在早期。

When to Use What

Choose Transformer When

通用 LLM 应用：聊天、文本生成、代码、Agent——现有生态全栈支持
多模态任务：处理图像、音频、视频的任何场景
高召回需求：需要精确信息定位（RAG、文档问答、知识检索）
大 batch 生产推理：vLLM/TGI/vLLM 的 continuous batching 高度优化
已有基础设施：现有框架、工具链、部署方案基于 Transformer
团队经验：团队成员熟悉 Transformer 微调、评估、部署

Choose SSM (Mamba) When

超长上下文是核心需求：100K+ tokens 且需要合理延迟
边缘/移动设备推理：无 GPU 或有限计算资源
单序列低延迟：交互式场景，不能 batch
研究/前沿探索：对新架构感兴趣，愿意承担生态不成熟的风险
成本敏感的单用户部署：小规模推理，无需昂贵 GPU

Choose Hybrid (Jamba) When

需要兼顾质量和效率：不想在 recall 任务上妥协
KV cache 是部署瓶颈：有多用户并发长上下文需求
愿意接受较新架构：有工程能力处理自定义推理栈
探索 MoE + SSM 组合：两者叠加的参数效率优势

Future Outlook

Mamba 2

Mamba 2（2024）带来了几个关键改进：更快的并行 scan、state expansion 效率提升、更好的硬件亲和性。质量接近同规模 Transformer，推理效率持续提升。Mamba 3 预计将进一步缩小 recall 差距。

Convergence Path

行业趋势指向 架构趋同（convergence）：

Attention 变体也在降低复杂度：MQA、GQA、Multi-Head Linear Attention、CSA 都在向 O(n) 靠近
SSM 在加入 attention-like 机制：选择性状态空间 = 类似 attention 的"关注"能力
混合架构成为默认：未来可能没有"纯" Transformer 或"纯" SSM，而是动态混合

What to Watch

硬件支持：NVIDIA/AMD 是否会为 SSM 优化底层 kernel？CUDA 是否原生支持 selective scan？
Scaling to 100B+：Mamba 能否在 100B+ 参数规模保持质量优势？
多模态 SSM：Vision Mamba 能否成熟到替代 ViT？
量化友好性：SSM 在 4-bit/2-bit 量化下的表现是否优于 Transformer？

Practical Advice for 2026

截至 2026 年 4 月：

生产环境首选 Transformer —— 生态成熟度差距在 1-2 年内不会消失
超长上下文实验用 Mamba/Jamba —— 在 500K+ 场景有明显优势
关注且只关注混合架构 —— 纯 SSM 的 future 是混合架构的一部分
不要忽视推理硬件现实 —— SSM 在当前 GPU 上不是魔法般的快，需要专用优化
你的第一选择仍然是 Llama、Qwen、DeepSeek —— 它们都是 Transformer 系，并且短期内不会改变

Sources

Vaswani et al., "Attention Is All You Need" (2017) — 原始 Transformer 论文
Gu & Dao, "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" (2023)
AI21 Labs, "Jamba: A Hybrid Transformer-Mamba Model" (2024)
RWKV: "Rethinking the Attention Mechanism with RWKV" (2023)
Dao et al., "FlashAttention: Fast and Memory-Efficient Exact Attention" (2022)
Model Inference & Deployment 页面 — 推理优化技巧
Scaling Laws 页面 — 架构选择与 scaling 关系

Transformer vs SSM (Mamba / RWKV / Jamba) ​

The Architecture Landscape ​

Transformer 的统治与瓶颈 ​

SSM 的崛起 ​

How SSMs Work ​

State Space Models: Core Idea ​

Mamba: Selective SSM ​

RWKV: Linear Attention Variant ​

Jamba: Hybrid Architecture ​

Comparison Table ​

Detailed Analysis ​

1. Context Length: The Defining Difference ​

2. Inference: Throughput vs Latency ​

3. Quality: The Recall Gap ​

4. Multimodal: Transformer Remains King ​

Hybrid Approaches ​

Jamba: The Best of Both Worlds ​

Other Hybrid Directions ​

Hardware Reality ​

SSMs Are Compute-Bound ​

Custom Kernels Matter ​

When to Use What ​

Choose Transformer When ​

Choose SSM (Mamba) When ​

Choose Hybrid (Jamba) When ​

Future Outlook ​

Mamba 2 ​

Convergence Path ​

What to Watch ​

Practical Advice for 2026 ​

Sources ​