Appearance
DeepSeek
Overview
DeepSeek 是当前开源大模型生态中最具影响力的参与者之一,由刘知远长期资助的量化对冲基金 High-Flyer 孵化。DeepSeek 以极致的技术效率和开放策略著称——在远低于美国同行的训练预算下,推出了与 GPT-4/GPT-4o 性能匹敌的模型。DeepSeek-V4 重点围绕超长上下文、Agent 场景可用性与 MoE 路线展开,代表了开源模型能力的巅峰。
Model Timeline
| 模型 | 发布时间 | 参数规模 | 上下文窗口 | 架构特点 |
|---|---|---|---|---|
| DeepSeek LLM | 2023-11 | 67B | 4K | 首个开源通用模型 |
| DeepSeek-Coder | 2024-01 | 1.3B–33B | 16K | 代码专用 |
| DeepSeek-V2 | 2024-05 | 236B (21B 激活) MoE | 128K | MLA (Multi-Head Latent Attention) |
| DeepSeek-R1 | 2025-01 | 671B (37B 激活) MoE | 128K | 首个开源推理模型,GRPO 训练 |
| DeepSeek-V3 | 2024-12 | 671B (37B 激活) MoE | 128K | FP8 训练,性能匹配 GPT-4 |
| DeepSeek-V4-Pro | 2026-04 | 1.6T (49B 激活) MoE | 1M | 极致 MoE 稀疏化 |
| DeepSeek-V4-Flash | 2026-04 | 284B (13B 激活) MoE | 1M | 高效推理版,大幅降低成本 |
Benchmark Scores
| 基准 | DeepSeek-V3 | DeepSeek-R1 | DeepSeek-V4 Pro | DeepSeek-V4 Flash |
|---|---|---|---|---|
| MMLU | 88.5% | 90.8% | 91.2% | 88.0% |
| HumanEval | 82.6% | 84.1% | 90.8% | 88.5% |
| MATH | 79.2% | 97.3% | 86.3% | 78.2% |
| GPQA Diamond | 59.1% | 71.5% | 68.9% | 54.7% |
| HellaSwag | 92.8% | 93.5% | 95.7% | 94.1% |
| TruthfulQA | 68.9% | 72.3% | 79.4% | 74.6% |
API Pricing(截至 2026 年 4 月)
| 模型 | 输入 ($/1M tokens) | 输出 ($/1M tokens) | 备注 |
|---|---|---|---|
| DeepSeek-V4 Pro | $2.00 | $8.00 | 旗舰模型 |
| DeepSeek-V4 Flash | $0.35 | $1.40 | 高性价比(当前本对话使用) |
| DeepSeek-V3 | $0.50 | $2.00 | 上一代主力 |
| DeepSeek-R1 | $0.55 | $2.19 | 推理模式,含 CoT tokens |
Architecture Notes
- MLA (Multi-Head Latent Attention):DeepSeek 自研注意力机制,大幅降低 KV cache 用量——是 1M 上下文窗口在 MoE 模型上可行的关键原因
- 极致 MoE 稀疏化:V4-Pro 总参数 1.6T 但仅激活 49B (3%)——推理成本与 49B 稠密模型相当
- GRPO(Group Relative Policy Optimization):DeepSeek 自研 RL 训练方法,无需 Critic/Value Model,简化和稳定了推理模型的 RL 训练
- FP8 训练:DeepSeek-V3/V4 全程使用 FP8 混合精度训练,大幅降低训练预算(V4 估计训练成本约 $50M,而同级美国模型约 $500M+)
- 全系列开源权重 + Apache 2.0 许可(V2/V3/V4 均可下载)
Why It Matters
- DeepSeek 是理解开源高性能模型路线的关键样本
- 它以极低成本(约 US 同行 1/10)实现了匹敌 GPT-4o 的性能,改写了 AI 训练成本方程
- 它与 OpenAI、Anthropic 的对比,可以观察闭源与开源在产品化和部署成本上的不同取舍
- 它也与 Mixture of Experts、AI Agents、Transformer Architecture 这些核心概念高度相关
- DeepSeek 代表了一个重要趋势:开源模型不再只是"追赶者",在某些维度(MoE 效率、长上下文成本)甚至领先
Relationships
- 相关公司/模型:OpenAI、Anthropic、Llama、Qwen、Mistral AI
- 相关概念:Mixture of Experts、AI Agents、Transformer Architecture、Model Inference & Deployment、Fine-tuning
Open Questions
- DeepSeek 路线在长期上更偏向研究展示、开源生态,还是企业级产品化?
- 其超长上下文(1M)与 Agent 能力在真实任务中的稳健性如何持续验证?
- 当美国出口管制进一步收紧,DeepSeek 的 GPU 供给链和训练能力能否持续?
Sources
- raw/articles/deepseek-v4-hf-blog-2026-04-26.md
- raw/articles/deepseek-v4-pro-hf-model-page-2026-04-26.md
- DeepSeek Official Documentation (api-docs.deepseek.com)
- DeepSeek-V2/V3/R1/V4 Technical Reports