Appearance
Mixture of Experts
Definition
MoE(Mixture of Experts,混合专家模型)是一种通过多个 expert 网络划分问题空间、并在执行时只激活部分专家(Sparse Activation)的机器学习架构思路。它的核心目标是在不按比例增加每次推理成本的前提下,显著提升模型总容量。在现代 LLM 中,MoE 已成为平衡"模型容量"与"推理效率"的核心架构范式。
Key Papers
| 论文 | 年份 | 机构 | 核心贡献 |
|---|---|---|---|
| Adaptive Mixtures of Local Experts (Jacobs et al.) | 1991 | — | 首次提出 MoE 概念 |
| Outrageously Large Neural Networks: The Sparsely-Gated MoE Layer (Shazeer et al.) | 2017 | 稀疏门控 MoE 层,路由 Top-K expert,MoE 的现代范式 | |
| GShard: Scaling Giant Models with Conditional Computation (Lepikhin et al.) | 2020 | 将 MoE 扩展到 Transformer,首个大规模 MoE Transformer | |
| Switch Transformers (Fedus et al.) | 2021 | 简化为 Top-1 路由,提升训练效率 | |
| Mixtral of Experts (Mistral AI) | 2024 | Mistral | 首个主流开源 MoE 模型(8x7B),证明 MoE 在小规模也有效 |
| DeepSeek-V2/V3/V4 | 2024-2026 | DeepSeek | 极致 MoE 稀疏化(1.6T 总参/49B 激活),MLA 解决 KV cache 问题 |
Routing Strategies
MoE 的核心是路由机制(Router/Gate)——决定每个输入 token 由哪些 expert 处理。
| 策略 | 工作方式 | 优缺点 | 使用模型 |
|---|---|---|---|
| Top-K Routing | Router 计算 token 与各 expert 的亲和度,选择 Top-K 个 | 标准但不保证负载均衡 | Mixtral 8x7B (Top-2), DeepSeek-V2 |
| Top-1 Routing | 每次仅选 1 个 expert | 最省计算,但可能信息损失 | Switch Transformer |
| Top-1 + Shared Expert | 选 1 个 routed expert + 始终激活 1 个 shared expert | 平衡容量与效率 | DeepSeek-V2 |
| Fine-grained MoE | 更多但更小的 expert(如 256 expert, Top-8 激活) | 更精细的划分,更多路由自由度 | DeepSeek-V3/V4 |
| Shared + Routed | 部分 expert 共享(始终激活)+ 部分专家动态路由 | 共享知识 + 专业分工 | DeepSeek-V4 |
Modern MoE Architecture
输入 Token
↓
Router 计算 [token 与 expert_1, expert_2, ..., expert_N] 的亲和度
↓
选择 Top-K 个 expert(如 8/256)
↓
每个选中的 expert 独立处理 token
↓
加权合并(权重 = router 输出的 softmax 分数)
↓
输出 = Σ(g_i · expert_i(x))关键设计参数
| 参数 | 说明 | 典型值 |
|---|---|---|
| Total Experts | 模型中注册的总 expert 数量 | 8–256 |
| Active Experts | 每次推理激活的 expert 数量 (K) | 1–8 |
| Expert Capacity | 每个 expert 能处理的 token 上限 | 通常设为 batch/num_experts × capacity_factor |
| Activation Ratio | 激活参数 / 总参数 | 3%–50%(DeepSeek V4 Pro: 3%) |
| Expert Dimension | 每个 expert 的 FFN 隐藏层维度 | 通常小于稠密模型的对应维度 |
Router Load Balancing
MoE 训练中最棘手的工程问题:Router 可能把所有 token 都路由到少数几个 expert,导致其他 expert 不被训练("Route Collapse")。
| 方法 | 机制 | 优缺点 |
|---|---|---|
| Auxiliary Loss (Load Balancing Loss) | 在总损失中添加辅助损失,鼓励均匀分配 | 标准方案,但超参数敏感 |
| Expert Choice Routing | 由 expert 选择 token(反过来,而非 token 选 expert) | 天然平衡,但需要全局信息 |
| Capacity Factor | 为每个 expert 设置容量上限,超载的 token 被丢弃/重新分配 | 简单但可能导致信息丢失 |
| Z-Loss | DeepSeek 的负载均衡方法 | 降低路由 logits 的动态范围 |
Comparison: MoE vs Dense
| 维度 | Dense Transformer | MoE Transformer |
|---|---|---|
| 总参数 | N | 2N–10N |
| 每次推理激活 | N | 0.03N–0.5N |
| 训练成本 | 基准 | 高 1.5–3x(需路由 + 更多 expert 的前向/反向) |
| 推理成本 | 基准 | 低 2–10x(仅激活部分参数) |
| 训练稳定性 | 稳定 | 更复杂(负载均衡、路由收敛) |
| 硬体要求 | 标准 GPU | 更大显存(存储 expert 参数) + 通信开销(All-to-All) |
| 微调难度 | 简单 | 需处理 expert 路由偏移 |
Current Understanding
- Wikipedia 摘要将 MoE 描述为一种使用多个 expert learner 来划分问题空间的机器学习技术
Outrageously Large Neural Networks展示了稀疏门控 MoE 层如何把模型容量扩展到非常大的规模,同时只让一小部分参数在单次样本计算中被激活- 在近期模型实践中,MoE 已成为高性能模型路线的重要组成部分:DeepSeek 的 V4-Pro (1.6T/49B) 将 MoE 的"激活比"推至极致(3%);Llama 4 从 Dense 转向 MoE;Qwen3 引入 MoE;Mistral AI 的 Mixtral 8x7B 是首个成功的开源证明
- 2025-2026 年的趋势:几乎所有新发布的高性能模型都采用 MoE 架构,Dense 模型仅保留在轻量级路线
Why It Matters
- MoE 是理解当代高性能模型如何兼顾"更大容量"和"可接受推理成本"的关键概念
- 它与 DeepSeek、Qwen、Anthropic、Mistral AI、Llama 等模型/公司路线密切相关
- MoE 使 1T+ 参数的模型在实际推理中与 50B 模型成本相当——从根本上改变了模型的部署经济学
- 它也可以视作 Transformer Architecture 在规模化方向上的重要演化路径之一
Engineering Pitfalls
- 负载均衡失效:Router 崩溃导致部分 expert 从未被训练;需监控负载均衡损失和 expert 利用率
- All-to-All 通信瓶颈:分布式 MoE 中 expert 分布在多 GPU 上,跨 GPU 通信(All-to-All)可能成为瓶颈
- 微调时路由偏移:微调数据分布与预训练不同时,路由模式可能漂移;需保持路由层稳定
- 批量推理的 Expert Capacity:每个 expert 单次前向能处理的 token 数受容量限制,超载 token 会丢弃或递归
- 评测不一致:相同总参数但不同路由策略的 MoE 模型不可直接对比
Open Questions
- MoE 在真实生产环境中的路由稳定性、延迟和部署复杂度如何权衡?
- Transformer 与 MoE 的最终组合形态是什么?(细粒度?分层?共享+路由?)
- MoE 的训练稳定性能否接近 Dense Transformer 的水平?
- MoE 的稀疏训练是否与 Dense 模型的 Scaling Laws 有不同的缩放规律?
Sources
- raw/articles/mixture-of-experts-wikipedia-summary-2026-04-26.md
- raw/papers/sparsely-gated-moe-1701.06538-2026-04-26.md
- raw/articles/deepseek-v4-hf-blog-2026-04-26.md
- Outrageously Large Neural Networks: The Sparsely-Gated MoE Layer (Shazeer et al., 2017)
- Switch Transformers: Scaling to Trillion Parameter Models (Fedus et al., 2021)
- Mixtral of Experts (Mistral AI, 2024)
- DeepSeek-V2/V3/V4 Technical Reports