Mixture of Experts

Definition

MoE（Mixture of Experts，混合专家模型）是一种通过多个 expert 网络划分问题空间、并在执行时只激活部分专家（Sparse Activation）的机器学习架构思路。它的核心目标是在不按比例增加每次推理成本的前提下，显著提升模型总容量。在现代 LLM 中，MoE 已成为平衡"模型容量"与"推理效率"的核心架构范式。

Key Papers

论文	年份	机构	核心贡献
Adaptive Mixtures of Local Experts (Jacobs et al.)	1991	—	首次提出 MoE 概念
Outrageously Large Neural Networks: The Sparsely-Gated MoE Layer (Shazeer et al.)	2017	Google	稀疏门控 MoE 层，路由 Top-K expert，MoE 的现代范式
GShard: Scaling Giant Models with Conditional Computation (Lepikhin et al.)	2020	Google	将 MoE 扩展到 Transformer，首个大规模 MoE Transformer
Switch Transformers (Fedus et al.)	2021	Google	简化为 Top-1 路由，提升训练效率
Mixtral of Experts (Mistral AI)	2024	Mistral	首个主流开源 MoE 模型（8x7B），证明 MoE 在小规模也有效
DeepSeek-V2/V3/V4	2024-2026	DeepSeek	极致 MoE 稀疏化（1.6T 总参/49B 激活），MLA 解决 KV cache 问题

Routing Strategies

MoE 的核心是路由机制（Router/Gate）——决定每个输入 token 由哪些 expert 处理。

策略	工作方式	优缺点	使用模型
Top-K Routing	Router 计算 token 与各 expert 的亲和度，选择 Top-K 个	标准但不保证负载均衡	Mixtral 8x7B (Top-2), DeepSeek-V2
Top-1 Routing	每次仅选 1 个 expert	最省计算，但可能信息损失	Switch Transformer
Top-1 + Shared Expert	选 1 个 routed expert + 始终激活 1 个 shared expert	平衡容量与效率	DeepSeek-V2
Fine-grained MoE	更多但更小的 expert（如 256 expert, Top-8 激活）	更精细的划分，更多路由自由度	DeepSeek-V3/V4
Shared + Routed	部分 expert 共享（始终激活）+ 部分专家动态路由	共享知识 + 专业分工	DeepSeek-V4

Modern MoE Architecture

输入 Token
  ↓
Router 计算 [token 与 expert_1, expert_2, ..., expert_N] 的亲和度
  ↓
选择 Top-K 个 expert（如 8/256）
  ↓
每个选中的 expert 独立处理 token
  ↓
加权合并（权重 = router 输出的 softmax 分数）
  ↓
输出 = Σ(g_i · expert_i(x))

关键设计参数

参数	说明	典型值
Total Experts	模型中注册的总 expert 数量	8–256
Active Experts	每次推理激活的 expert 数量 (K)	1–8
Expert Capacity	每个 expert 能处理的 token 上限	通常设为 batch/num_experts × capacity_factor
Activation Ratio	激活参数 / 总参数	3%–50%（DeepSeek V4 Pro: 3%）
Expert Dimension	每个 expert 的 FFN 隐藏层维度	通常小于稠密模型的对应维度

Router Load Balancing

MoE 训练中最棘手的工程问题：Router 可能把所有 token 都路由到少数几个 expert，导致其他 expert 不被训练（"Route Collapse"）。

方法	机制	优缺点
Auxiliary Loss (Load Balancing Loss)	在总损失中添加辅助损失，鼓励均匀分配	标准方案，但超参数敏感
Expert Choice Routing	由 expert 选择 token（反过来，而非 token 选 expert）	天然平衡，但需要全局信息
Capacity Factor	为每个 expert 设置容量上限，超载的 token 被丢弃/重新分配	简单但可能导致信息丢失
Z-Loss	DeepSeek 的负载均衡方法	降低路由 logits 的动态范围

Comparison: MoE vs Dense

维度	Dense Transformer	MoE Transformer
总参数	N	2N–10N
每次推理激活	N	0.03N–0.5N
训练成本	基准	高 1.5–3x（需路由 + 更多 expert 的前向/反向）
推理成本	基准	低 2–10x（仅激活部分参数）
训练稳定性	稳定	更复杂（负载均衡、路由收敛）
硬体要求	标准 GPU	更大显存（存储 expert 参数） + 通信开销（All-to-All）
微调难度	简单	需处理 expert 路由偏移

Current Understanding

Wikipedia 摘要将 MoE 描述为一种使用多个 expert learner 来划分问题空间的机器学习技术
Outrageously Large Neural Networks 展示了稀疏门控 MoE 层如何把模型容量扩展到非常大的规模，同时只让一小部分参数在单次样本计算中被激活
在近期模型实践中，MoE 已成为高性能模型路线的重要组成部分：DeepSeek 的 V4-Pro (1.6T/49B) 将 MoE 的"激活比"推至极致（3%）；Llama 4 从 Dense 转向 MoE；Qwen3 引入 MoE；Mistral AI 的 Mixtral 8x7B 是首个成功的开源证明
2025-2026 年的趋势：几乎所有新发布的高性能模型都采用 MoE 架构，Dense 模型仅保留在轻量级路线

Why It Matters

MoE 是理解当代高性能模型如何兼顾"更大容量"和"可接受推理成本"的关键概念
它与 DeepSeek、Qwen、Anthropic、Mistral AI、Llama 等模型/公司路线密切相关
MoE 使 1T+ 参数的模型在实际推理中与 50B 模型成本相当——从根本上改变了模型的部署经济学
它也可以视作 Transformer Architecture 在规模化方向上的重要演化路径之一

Engineering Pitfalls

负载均衡失效：Router 崩溃导致部分 expert 从未被训练；需监控负载均衡损失和 expert 利用率
All-to-All 通信瓶颈：分布式 MoE 中 expert 分布在多 GPU 上，跨 GPU 通信（All-to-All）可能成为瓶颈
微调时路由偏移：微调数据分布与预训练不同时，路由模式可能漂移；需保持路由层稳定
批量推理的 Expert Capacity：每个 expert 单次前向能处理的 token 数受容量限制，超载 token 会丢弃或递归
评测不一致：相同总参数但不同路由策略的 MoE 模型不可直接对比

Open Questions

MoE 在真实生产环境中的路由稳定性、延迟和部署复杂度如何权衡？
Transformer 与 MoE 的最终组合形态是什么？（细粒度？分层？共享+路由？）
MoE 的训练稳定性能否接近 Dense Transformer 的水平？
MoE 的稀疏训练是否与 Dense 模型的 Scaling Laws 有不同的缩放规律？

Sources

raw/articles/mixture-of-experts-wikipedia-summary-2026-04-26.md
raw/papers/sparsely-gated-moe-1701.06538-2026-04-26.md
raw/articles/deepseek-v4-hf-blog-2026-04-26.md
Outrageously Large Neural Networks: The Sparsely-Gated MoE Layer (Shazeer et al., 2017)
Switch Transformers: Scaling to Trillion Parameter Models (Fedus et al., 2021)
Mixtral of Experts (Mistral AI, 2024)
DeepSeek-V2/V3/V4 Technical Reports

Mixture of Experts ​

Definition ​

Key Papers ​

Routing Strategies ​

Modern MoE Architecture ​

关键设计参数 ​

Router Load Balancing ​

Comparison: MoE vs Dense ​

Current Understanding ​

Why It Matters ​

Engineering Pitfalls ​

Open Questions ​

Sources ​