MoE vs Dense 架构对比

Mixture of Experts (MoE) 已成为 2024-2025 年大模型架构的主流演进方向。从 DeepSeek-V2 到 Qwen3、Llama 4、Mixtral，MoE 正在从"实验性架构"变为"生产标配"。本页从架构原理、训练成本、推理效率、部署难度和适用场景五个维度，系统对比 MoE 与传统 Dense (全连接) 架构。

Comparison Overview

维度	Dense (全连接)	Mixture of Experts (MoE)
参数使用	所有参数参与每次前向传播	仅激活部分参数 (通常 10-20%)
总参数量	与激活参数相同	总参数 >> 激活参数 (5-20x)
典型代表	GPT-4 (早期)、Claude 3、Llama 2/3	DeepSeek-V4、Qwen3、Mixtral、Llama 4
训练 FLOPs	与模型大小成正比	相同质量下可节省 2-4x 训练计算
推理 FLOPs	固定 (所有参数参与)	仅激活参数参与，大幅降低
内存占用	与参数量成正比	需加载全部参数，显存需求高
KV Cache	标准 GQA/MQA	需优化 (CSA、共享专家等)
并行效率	高 (所有参数均匀分布)	中等 (路由负载均衡挑战)
微调难度	低 (全参数或 LoRA)	较高 (专家选择、负载均衡)
可解释性	低 (黑盒)	稍高 (可分析专家分工)

Key Differences

架构原理

Dense 架构中，每个 Transformer 层的 FFN (Feed-Forward Network) 是一个统一的全连接网络。输入 token 经过 attention 后，所有参数都参与计算：

Dense FFN:  output = activation(x · W₁ + b₁) · W₂ + b₂
            # W₁, W₂ 包含全部参数

MoE 架构将 FFN 替换为多个"专家"网络 + 一个"路由"网络：

MoE Layer:  gate_scores = softmax(x · W_gate)
            topk_indices = topk(gate_scores, k=2)
            output = Σᵢ (gate_scores[i] · Expertᵢ(x))
            # 仅 top-k 专家参与计算

核心思想：用更多的总参数提升模型容量，但只激活少量参数控制计算成本。

训练成本

MoE 在训练阶段有明显优势：

相同计算预算下，MoE 模型质量更高：Google 的 Switch Transformer 研究表明，在相同训练 FLOPs 下，MoE 模型显著优于 Dense 模型
相同质量目标下，MoE 节省 2-4x 训练计算：DeepSeek-V4 用 MoE 实现了 1.6T 总参数但只有 49B 激活，训练成本远低于同等容量的 Dense 模型
专家并行 (Expert Parallelism) 允许跨设备分布不同专家，扩展性更好

但 MoE 训练也有额外挑战：

负载均衡：需要辅助损失函数确保 token 均匀分配到各专家，避免"专家崩溃"(某些专家过载，某些闲置)
通信开销：All-to-all 通信在专家并行中引入额外延迟

推理效率

MoE 的推理优势是双刃剑：

优势：

激活参数少：每次前向传播只计算 10-20% 的参数，FLOPs 大幅降低
吞吐量高：batch 越大，专家利用率越高，吞吐量优势越明显

劣势：

内存瓶颈：需要加载全部参数到显存。1.6T 参数的 DeepSeek-V4 即使只激活 49B，仍需存储 1.6T 的权重
KV Cache 膨胀：长上下文下，MoE 的 KV cache 可能更大（除非采用 CSA 等优化）
延迟敏感场景：小 batch、低延迟场景下，内存带宽瓶颈可能抵消计算优势

DeepSeek 的解决方案：

Compressed Sparse Attention (CSA)：将 KV cache 压缩至传统 GQA 的 2%
共享专家 (Shared Experts)：部分专家始终激活，减少路由开销
细粒度专家：更多小专家 → 更好的负载均衡

部署难度

挑战	Dense	MoE
显存需求	中等	高 (需存全部参数)
多卡并行	数据并行 + 张量并行	+ 专家并行
动态路由	无	需要负载均衡监控
量化支持	成熟 (INT8/INT4/GGUF)	较新，部分框架支持
框架支持	所有框架	vLLM、SGLang、TensorRT-LLM 已支持

2024 年起，vLLM、SGLang、TensorRT-LLM 等主流推理框架均已支持 MoE，部署门槛大幅降低。

适用场景

场景	推荐架构	原因
研究实验、中小规模	Dense	简单、稳定、调试容易
超大规模预训练 (>100B)	MoE	训练效率优势显著
高吞吐量服务 (大 batch)	MoE	FLOPs 优势可发挥
低延迟交互 (小 batch)	Dense	避免内存带宽瓶颈
边缘/端侧部署	Dense	显存受限
长上下文 Agent	MoE + CSA	DeepSeek 路线，KV cache 优化
需要深度微调的垂直场景	Dense	微调生态更成熟

Synthesis

MoE 不是 Dense 的"替代品"，而是"扩展选项"：

Dense 仍是中小模型的最优选择：< 30B 参数的模型，Dense 架构更简单高效
MoE 是超大模型的默认选择：> 100B 参数的模型，MoE 的训练效率优势不可忽略
混合路线正在出现：Llama 4 部分层用 MoE、部分层用 Dense；共享专家 + 路由专家的组合
优化技术缩小差距：CSA、共享专家、专家选择 (expert choice) 等创新持续降低 MoE 的部署门槛

未来趋势：MoE 将从"架构选择"变为"默认配置"，就像 Transformer 取代 RNN 一样自然。

Mixture of Experts — MoE 技术详解
DeepSeek — DeepSeek 的 MoE 创新
Llama — Llama 4 的混合架构
Speculative Decoding — 推理加速技术
Model Inference & Deployment — 模型部署框架

Sources

Shazeer et al. "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer" (2017)
Fedus et al. "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity" (2021)
DeepSeek-V4 Technical Report (2025)
Qwen3 Technical Report (2025)
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

MoE vs Dense 架构对比 ​

Comparison Overview ​

Key Differences ​

架构原理 ​

训练成本 ​

推理效率 ​

部署难度 ​

适用场景 ​

Synthesis ​

Related Pages ​

Sources ​