Appearance
MoE vs Dense 架构对比
Mixture of Experts (MoE) 已成为 2024-2025 年大模型架构的主流演进方向。从 DeepSeek-V2 到 Qwen3、Llama 4、Mixtral,MoE 正在从"实验性架构"变为"生产标配"。本页从架构原理、训练成本、推理效率、部署难度和适用场景五个维度,系统对比 MoE 与传统 Dense (全连接) 架构。
Comparison Overview
| 维度 | Dense (全连接) | Mixture of Experts (MoE) |
|---|---|---|
| 参数使用 | 所有参数参与每次前向传播 | 仅激活部分参数 (通常 10-20%) |
| 总参数量 | 与激活参数相同 | 总参数 >> 激活参数 (5-20x) |
| 典型代表 | GPT-4 (早期)、Claude 3、Llama 2/3 | DeepSeek-V4、Qwen3、Mixtral、Llama 4 |
| 训练 FLOPs | 与模型大小成正比 | 相同质量下可节省 2-4x 训练计算 |
| 推理 FLOPs | 固定 (所有参数参与) | 仅激活参数参与,大幅降低 |
| 内存占用 | 与参数量成正比 | 需加载全部参数,显存需求高 |
| KV Cache | 标准 GQA/MQA | 需优化 (CSA、共享专家等) |
| 并行效率 | 高 (所有参数均匀分布) | 中等 (路由负载均衡挑战) |
| 微调难度 | 低 (全参数或 LoRA) | 较高 (专家选择、负载均衡) |
| 可解释性 | 低 (黑盒) | 稍高 (可分析专家分工) |
Key Differences
架构原理
Dense 架构中,每个 Transformer 层的 FFN (Feed-Forward Network) 是一个统一的全连接网络。输入 token 经过 attention 后,所有参数都参与计算:
Dense FFN: output = activation(x · W₁ + b₁) · W₂ + b₂
# W₁, W₂ 包含全部参数MoE 架构将 FFN 替换为多个"专家"网络 + 一个"路由"网络:
MoE Layer: gate_scores = softmax(x · W_gate)
topk_indices = topk(gate_scores, k=2)
output = Σᵢ (gate_scores[i] · Expertᵢ(x))
# 仅 top-k 专家参与计算核心思想:用更多的总参数提升模型容量,但只激活少量参数控制计算成本。
训练成本
MoE 在训练阶段有明显优势:
- 相同计算预算下,MoE 模型质量更高:Google 的 Switch Transformer 研究表明,在相同训练 FLOPs 下,MoE 模型显著优于 Dense 模型
- 相同质量目标下,MoE 节省 2-4x 训练计算:DeepSeek-V4 用 MoE 实现了 1.6T 总参数但只有 49B 激活,训练成本远低于同等容量的 Dense 模型
- 专家并行 (Expert Parallelism) 允许跨设备分布不同专家,扩展性更好
但 MoE 训练也有额外挑战:
- 负载均衡:需要辅助损失函数确保 token 均匀分配到各专家,避免"专家崩溃"(某些专家过载,某些闲置)
- 通信开销:All-to-all 通信在专家并行中引入额外延迟
推理效率
MoE 的推理优势是双刃剑:
优势:
- 激活参数少:每次前向传播只计算 10-20% 的参数,FLOPs 大幅降低
- 吞吐量高:batch 越大,专家利用率越高,吞吐量优势越明显
劣势:
- 内存瓶颈:需要加载全部参数到显存。1.6T 参数的 DeepSeek-V4 即使只激活 49B,仍需存储 1.6T 的权重
- KV Cache 膨胀:长上下文下,MoE 的 KV cache 可能更大(除非采用 CSA 等优化)
- 延迟敏感场景:小 batch、低延迟场景下,内存带宽瓶颈可能抵消计算优势
DeepSeek 的解决方案:
- Compressed Sparse Attention (CSA):将 KV cache 压缩至传统 GQA 的 2%
- 共享专家 (Shared Experts):部分专家始终激活,减少路由开销
- 细粒度专家:更多小专家 → 更好的负载均衡
部署难度
| 挑战 | Dense | MoE |
|---|---|---|
| 显存需求 | 中等 | 高 (需存全部参数) |
| 多卡并行 | 数据并行 + 张量并行 | + 专家并行 |
| 动态路由 | 无 | 需要负载均衡监控 |
| 量化支持 | 成熟 (INT8/INT4/GGUF) | 较新,部分框架支持 |
| 框架支持 | 所有框架 | vLLM、SGLang、TensorRT-LLM 已支持 |
2024 年起,vLLM、SGLang、TensorRT-LLM 等主流推理框架均已支持 MoE,部署门槛大幅降低。
适用场景
| 场景 | 推荐架构 | 原因 |
|---|---|---|
| 研究实验、中小规模 | Dense | 简单、稳定、调试容易 |
| 超大规模预训练 (>100B) | MoE | 训练效率优势显著 |
| 高吞吐量服务 (大 batch) | MoE | FLOPs 优势可发挥 |
| 低延迟交互 (小 batch) | Dense | 避免内存带宽瓶颈 |
| 边缘/端侧部署 | Dense | 显存受限 |
| 长上下文 Agent | MoE + CSA | DeepSeek 路线,KV cache 优化 |
| 需要深度微调的垂直场景 | Dense | 微调生态更成熟 |
Synthesis
MoE 不是 Dense 的"替代品",而是"扩展选项":
- Dense 仍是中小模型的最优选择:< 30B 参数的模型,Dense 架构更简单高效
- MoE 是超大模型的默认选择:> 100B 参数的模型,MoE 的训练效率优势不可忽略
- 混合路线正在出现:Llama 4 部分层用 MoE、部分层用 Dense;共享专家 + 路由专家的组合
- 优化技术缩小差距:CSA、共享专家、专家选择 (expert choice) 等创新持续降低 MoE 的部署门槛
未来趋势:MoE 将从"架构选择"变为"默认配置",就像 Transformer 取代 RNN 一样自然。
Related Pages
- Mixture of Experts — MoE 技术详解
- DeepSeek — DeepSeek 的 MoE 创新
- Llama — Llama 4 的混合架构
- Speculative Decoding — 推理加速技术
- Model Inference & Deployment — 模型部署框架
Sources
Shazeer et al. "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer" (2017)
Fedus et al. "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity" (2021)
DeepSeek-V4 Technical Report (2025)
Qwen3 Technical Report (2025)
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程