Skip to content

DeepSeek

Overview

DeepSeek 是当前开源大模型生态中最具影响力的参与者之一,由刘知远长期资助的量化对冲基金 High-Flyer 孵化。DeepSeek 以极致的技术效率和开放策略著称——在远低于美国同行的训练预算下,推出了与 GPT-4/GPT-4o 性能匹敌的模型。DeepSeek-V4 重点围绕超长上下文、Agent 场景可用性与 MoE 路线展开,代表了开源模型能力的巅峰。

Model Timeline

模型发布时间参数规模上下文窗口架构特点
DeepSeek LLM2023-1167B4K首个开源通用模型
DeepSeek-Coder2024-011.3B–33B16K代码专用
DeepSeek-V22024-05236B (21B 激活) MoE128KMLA (Multi-Head Latent Attention)
DeepSeek-R12025-01671B (37B 激活) MoE128K首个开源推理模型,GRPO 训练
DeepSeek-V32024-12671B (37B 激活) MoE128KFP8 训练,性能匹配 GPT-4
DeepSeek-V4-Pro2026-041.6T (49B 激活) MoE1M极致 MoE 稀疏化
DeepSeek-V4-Flash2026-04284B (13B 激活) MoE1M高效推理版,大幅降低成本

Benchmark Scores

基准DeepSeek-V3DeepSeek-R1DeepSeek-V4 ProDeepSeek-V4 Flash
MMLU88.5%90.8%91.2%88.0%
HumanEval82.6%84.1%90.8%88.5%
MATH79.2%97.3%86.3%78.2%
GPQA Diamond59.1%71.5%68.9%54.7%
HellaSwag92.8%93.5%95.7%94.1%
TruthfulQA68.9%72.3%79.4%74.6%

API Pricing(截至 2026 年 4 月)

模型输入 ($/1M tokens)输出 ($/1M tokens)备注
DeepSeek-V4 Pro$2.00$8.00旗舰模型
DeepSeek-V4 Flash$0.35$1.40高性价比(当前本对话使用)
DeepSeek-V3$0.50$2.00上一代主力
DeepSeek-R1$0.55$2.19推理模式,含 CoT tokens

Architecture Notes

  • MLA (Multi-Head Latent Attention):DeepSeek 自研注意力机制,大幅降低 KV cache 用量——是 1M 上下文窗口在 MoE 模型上可行的关键原因
  • 极致 MoE 稀疏化:V4-Pro 总参数 1.6T 但仅激活 49B (3%)——推理成本与 49B 稠密模型相当
  • GRPO(Group Relative Policy Optimization):DeepSeek 自研 RL 训练方法,无需 Critic/Value Model,简化和稳定了推理模型的 RL 训练
  • FP8 训练:DeepSeek-V3/V4 全程使用 FP8 混合精度训练,大幅降低训练预算(V4 估计训练成本约 $50M,而同级美国模型约 $500M+)
  • 全系列开源权重 + Apache 2.0 许可(V2/V3/V4 均可下载)

Why It Matters

  • DeepSeek 是理解开源高性能模型路线的关键样本
  • 它以极低成本(约 US 同行 1/10)实现了匹敌 GPT-4o 的性能,改写了 AI 训练成本方程
  • 它与 OpenAIAnthropic 的对比,可以观察闭源与开源在产品化和部署成本上的不同取舍
  • 它也与 Mixture of ExpertsAI AgentsTransformer Architecture 这些核心概念高度相关
  • DeepSeek 代表了一个重要趋势:开源模型不再只是"追赶者",在某些维度(MoE 效率、长上下文成本)甚至领先

Relationships

Open Questions

  • DeepSeek 路线在长期上更偏向研究展示、开源生态,还是企业级产品化?
  • 其超长上下文(1M)与 Agent 能力在真实任务中的稳健性如何持续验证?
  • 当美国出口管制进一步收紧,DeepSeek 的 GPU 供给链和训练能力能否持续?

Sources

  • raw/articles/deepseek-v4-hf-blog-2026-04-26.md
  • raw/articles/deepseek-v4-pro-hf-model-page-2026-04-26.md
  • DeepSeek Official Documentation (api-docs.deepseek.com)
  • DeepSeek-V2/V3/R1/V4 Technical Reports

AI Knowledge Base — 持续积累