Skip to content

Mixture of Experts

Definition

MoE(Mixture of Experts,混合专家模型)是一种通过多个 expert 网络划分问题空间、并在执行时只激活部分专家(Sparse Activation)的机器学习架构思路。它的核心目标是在不按比例增加每次推理成本的前提下,显著提升模型总容量。在现代 LLM 中,MoE 已成为平衡"模型容量"与"推理效率"的核心架构范式。

Key Papers

论文年份机构核心贡献
Adaptive Mixtures of Local Experts (Jacobs et al.)1991首次提出 MoE 概念
Outrageously Large Neural Networks: The Sparsely-Gated MoE Layer (Shazeer et al.)2017Google稀疏门控 MoE 层,路由 Top-K expert,MoE 的现代范式
GShard: Scaling Giant Models with Conditional Computation (Lepikhin et al.)2020Google将 MoE 扩展到 Transformer,首个大规模 MoE Transformer
Switch Transformers (Fedus et al.)2021Google简化为 Top-1 路由,提升训练效率
Mixtral of Experts (Mistral AI)2024Mistral首个主流开源 MoE 模型(8x7B),证明 MoE 在小规模也有效
DeepSeek-V2/V3/V42024-2026DeepSeek极致 MoE 稀疏化(1.6T 总参/49B 激活),MLA 解决 KV cache 问题

Routing Strategies

MoE 的核心是路由机制(Router/Gate)——决定每个输入 token 由哪些 expert 处理。

策略工作方式优缺点使用模型
Top-K RoutingRouter 计算 token 与各 expert 的亲和度,选择 Top-K 个标准但不保证负载均衡Mixtral 8x7B (Top-2), DeepSeek-V2
Top-1 Routing每次仅选 1 个 expert最省计算,但可能信息损失Switch Transformer
Top-1 + Shared Expert选 1 个 routed expert + 始终激活 1 个 shared expert平衡容量与效率DeepSeek-V2
Fine-grained MoE更多但更小的 expert(如 256 expert, Top-8 激活)更精细的划分,更多路由自由度DeepSeek-V3/V4
Shared + Routed部分 expert 共享(始终激活)+ 部分专家动态路由共享知识 + 专业分工DeepSeek-V4

Modern MoE Architecture

输入 Token

Router 计算 [token 与 expert_1, expert_2, ..., expert_N] 的亲和度

选择 Top-K 个 expert(如 8/256)

每个选中的 expert 独立处理 token

加权合并(权重 = router 输出的 softmax 分数)

输出 = Σ(g_i · expert_i(x))

关键设计参数

参数说明典型值
Total Experts模型中注册的总 expert 数量8–256
Active Experts每次推理激活的 expert 数量 (K)1–8
Expert Capacity每个 expert 能处理的 token 上限通常设为 batch/num_experts × capacity_factor
Activation Ratio激活参数 / 总参数3%–50%(DeepSeek V4 Pro: 3%)
Expert Dimension每个 expert 的 FFN 隐藏层维度通常小于稠密模型的对应维度

Router Load Balancing

MoE 训练中最棘手的工程问题:Router 可能把所有 token 都路由到少数几个 expert,导致其他 expert 不被训练("Route Collapse")。

方法机制优缺点
Auxiliary Loss (Load Balancing Loss)在总损失中添加辅助损失,鼓励均匀分配标准方案,但超参数敏感
Expert Choice Routing由 expert 选择 token(反过来,而非 token 选 expert)天然平衡,但需要全局信息
Capacity Factor为每个 expert 设置容量上限,超载的 token 被丢弃/重新分配简单但可能导致信息丢失
Z-LossDeepSeek 的负载均衡方法降低路由 logits 的动态范围

Comparison: MoE vs Dense

维度Dense TransformerMoE Transformer
总参数N2N–10N
每次推理激活N0.03N–0.5N
训练成本基准高 1.5–3x(需路由 + 更多 expert 的前向/反向)
推理成本基准低 2–10x(仅激活部分参数)
训练稳定性稳定更复杂(负载均衡、路由收敛)
硬体要求标准 GPU更大显存(存储 expert 参数) + 通信开销(All-to-All)
微调难度简单需处理 expert 路由偏移

Current Understanding

  • Wikipedia 摘要将 MoE 描述为一种使用多个 expert learner 来划分问题空间的机器学习技术
  • Outrageously Large Neural Networks 展示了稀疏门控 MoE 层如何把模型容量扩展到非常大的规模,同时只让一小部分参数在单次样本计算中被激活
  • 在近期模型实践中,MoE 已成为高性能模型路线的重要组成部分:DeepSeek 的 V4-Pro (1.6T/49B) 将 MoE 的"激活比"推至极致(3%);Llama 4 从 Dense 转向 MoE;Qwen3 引入 MoE;Mistral AI 的 Mixtral 8x7B 是首个成功的开源证明
  • 2025-2026 年的趋势:几乎所有新发布的高性能模型都采用 MoE 架构,Dense 模型仅保留在轻量级路线

Why It Matters

  • MoE 是理解当代高性能模型如何兼顾"更大容量"和"可接受推理成本"的关键概念
  • 它与 DeepSeekQwenAnthropicMistral AILlama 等模型/公司路线密切相关
  • MoE 使 1T+ 参数的模型在实际推理中与 50B 模型成本相当——从根本上改变了模型的部署经济学
  • 它也可以视作 Transformer Architecture 在规模化方向上的重要演化路径之一

Engineering Pitfalls

  • 负载均衡失效:Router 崩溃导致部分 expert 从未被训练;需监控负载均衡损失和 expert 利用率
  • All-to-All 通信瓶颈:分布式 MoE 中 expert 分布在多 GPU 上,跨 GPU 通信(All-to-All)可能成为瓶颈
  • 微调时路由偏移:微调数据分布与预训练不同时,路由模式可能漂移;需保持路由层稳定
  • 批量推理的 Expert Capacity:每个 expert 单次前向能处理的 token 数受容量限制,超载 token 会丢弃或递归
  • 评测不一致:相同总参数但不同路由策略的 MoE 模型不可直接对比

Open Questions

  • MoE 在真实生产环境中的路由稳定性、延迟和部署复杂度如何权衡?
  • Transformer 与 MoE 的最终组合形态是什么?(细粒度?分层?共享+路由?)
  • MoE 的训练稳定性能否接近 Dense Transformer 的水平?
  • MoE 的稀疏训练是否与 Dense 模型的 Scaling Laws 有不同的缩放规律?

Sources

  • raw/articles/mixture-of-experts-wikipedia-summary-2026-04-26.md
  • raw/papers/sparsely-gated-moe-1701.06538-2026-04-26.md
  • raw/articles/deepseek-v4-hf-blog-2026-04-26.md
  • Outrageously Large Neural Networks: The Sparsely-Gated MoE Layer (Shazeer et al., 2017)
  • Switch Transformers: Scaling to Trillion Parameter Models (Fedus et al., 2021)
  • Mixtral of Experts (Mistral AI, 2024)
  • DeepSeek-V2/V3/V4 Technical Reports

AI Knowledge Base — 持续积累