Skip to content

MoE vs Dense 架构对比

Mixture of Experts (MoE) 已成为 2024-2025 年大模型架构的主流演进方向。从 DeepSeek-V2 到 Qwen3、Llama 4、Mixtral,MoE 正在从"实验性架构"变为"生产标配"。本页从架构原理、训练成本、推理效率、部署难度和适用场景五个维度,系统对比 MoE 与传统 Dense (全连接) 架构。

Comparison Overview

维度Dense (全连接)Mixture of Experts (MoE)
参数使用所有参数参与每次前向传播仅激活部分参数 (通常 10-20%)
总参数量与激活参数相同总参数 >> 激活参数 (5-20x)
典型代表GPT-4 (早期)、Claude 3、Llama 2/3DeepSeek-V4、Qwen3、Mixtral、Llama 4
训练 FLOPs与模型大小成正比相同质量下可节省 2-4x 训练计算
推理 FLOPs固定 (所有参数参与)仅激活参数参与,大幅降低
内存占用与参数量成正比需加载全部参数,显存需求高
KV Cache标准 GQA/MQA需优化 (CSA、共享专家等)
并行效率高 (所有参数均匀分布)中等 (路由负载均衡挑战)
微调难度低 (全参数或 LoRA)较高 (专家选择、负载均衡)
可解释性低 (黑盒)稍高 (可分析专家分工)

Key Differences

架构原理

Dense 架构中,每个 Transformer 层的 FFN (Feed-Forward Network) 是一个统一的全连接网络。输入 token 经过 attention 后,所有参数都参与计算:

Dense FFN:  output = activation(x · W₁ + b₁) · W₂ + b₂
            # W₁, W₂ 包含全部参数

MoE 架构将 FFN 替换为多个"专家"网络 + 一个"路由"网络:

MoE Layer:  gate_scores = softmax(x · W_gate)
            topk_indices = topk(gate_scores, k=2)
            output = Σᵢ (gate_scores[i] · Expertᵢ(x))
            # 仅 top-k 专家参与计算

核心思想:用更多的总参数提升模型容量,但只激活少量参数控制计算成本

训练成本

MoE 在训练阶段有明显优势:

  • 相同计算预算下,MoE 模型质量更高:Google 的 Switch Transformer 研究表明,在相同训练 FLOPs 下,MoE 模型显著优于 Dense 模型
  • 相同质量目标下,MoE 节省 2-4x 训练计算:DeepSeek-V4 用 MoE 实现了 1.6T 总参数但只有 49B 激活,训练成本远低于同等容量的 Dense 模型
  • 专家并行 (Expert Parallelism) 允许跨设备分布不同专家,扩展性更好

但 MoE 训练也有额外挑战:

  • 负载均衡:需要辅助损失函数确保 token 均匀分配到各专家,避免"专家崩溃"(某些专家过载,某些闲置)
  • 通信开销:All-to-all 通信在专家并行中引入额外延迟

推理效率

MoE 的推理优势是双刃剑:

优势

  • 激活参数少:每次前向传播只计算 10-20% 的参数,FLOPs 大幅降低
  • 吞吐量高:batch 越大,专家利用率越高,吞吐量优势越明显

劣势

  • 内存瓶颈:需要加载全部参数到显存。1.6T 参数的 DeepSeek-V4 即使只激活 49B,仍需存储 1.6T 的权重
  • KV Cache 膨胀:长上下文下,MoE 的 KV cache 可能更大(除非采用 CSA 等优化)
  • 延迟敏感场景:小 batch、低延迟场景下,内存带宽瓶颈可能抵消计算优势

DeepSeek 的解决方案

  • Compressed Sparse Attention (CSA):将 KV cache 压缩至传统 GQA 的 2%
  • 共享专家 (Shared Experts):部分专家始终激活,减少路由开销
  • 细粒度专家:更多小专家 → 更好的负载均衡

部署难度

挑战DenseMoE
显存需求中等高 (需存全部参数)
多卡并行数据并行 + 张量并行+ 专家并行
动态路由需要负载均衡监控
量化支持成熟 (INT8/INT4/GGUF)较新,部分框架支持
框架支持所有框架vLLM、SGLang、TensorRT-LLM 已支持

2024 年起,vLLM、SGLang、TensorRT-LLM 等主流推理框架均已支持 MoE,部署门槛大幅降低。

适用场景

场景推荐架构原因
研究实验、中小规模Dense简单、稳定、调试容易
超大规模预训练 (>100B)MoE训练效率优势显著
高吞吐量服务 (大 batch)MoEFLOPs 优势可发挥
低延迟交互 (小 batch)Dense避免内存带宽瓶颈
边缘/端侧部署Dense显存受限
长上下文 AgentMoE + CSADeepSeek 路线,KV cache 优化
需要深度微调的垂直场景Dense微调生态更成熟

Synthesis

MoE 不是 Dense 的"替代品",而是"扩展选项":

  • Dense 仍是中小模型的最优选择:< 30B 参数的模型,Dense 架构更简单高效
  • MoE 是超大模型的默认选择:> 100B 参数的模型,MoE 的训练效率优势不可忽略
  • 混合路线正在出现:Llama 4 部分层用 MoE、部分层用 Dense;共享专家 + 路由专家的组合
  • 优化技术缩小差距:CSA、共享专家、专家选择 (expert choice) 等创新持续降低 MoE 的部署门槛

未来趋势:MoE 将从"架构选择"变为"默认配置",就像 Transformer 取代 RNN 一样自然。

Sources

  • Shazeer et al. "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer" (2017)

  • Fedus et al. "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity" (2021)

  • DeepSeek-V4 Technical Report (2025)

  • Qwen3 Technical Report (2025)

  • Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

AI Knowledge Base — 持续积累