DeepSeek

Overview

DeepSeek 是当前开源大模型生态中最具影响力的参与者之一，由刘知远长期资助的量化对冲基金 High-Flyer 孵化。DeepSeek 以极致的技术效率和开放策略著称——在远低于美国同行的训练预算下，推出了与 GPT-4/GPT-4o 性能匹敌的模型。DeepSeek-V4 重点围绕超长上下文、Agent 场景可用性与 MoE 路线展开，代表了开源模型能力的巅峰。

Model Timeline

模型	发布时间	参数规模	上下文窗口	架构特点
DeepSeek LLM	2023-11	67B	4K	首个开源通用模型
DeepSeek-Coder	2024-01	1.3B–33B	16K	代码专用
DeepSeek-V2	2024-05	236B (21B 激活) MoE	128K	MLA (Multi-Head Latent Attention)
DeepSeek-R1	2025-01	671B (37B 激活) MoE	128K	首个开源推理模型，GRPO 训练
DeepSeek-V3	2024-12	671B (37B 激活) MoE	128K	FP8 训练，性能匹配 GPT-4
DeepSeek-V4-Pro	2026-04	1.6T (49B 激活) MoE	1M	极致 MoE 稀疏化
DeepSeek-V4-Flash	2026-04	284B (13B 激活) MoE	1M	高效推理版，大幅降低成本

Benchmark Scores

基准	DeepSeek-V3	DeepSeek-R1	DeepSeek-V4 Pro	DeepSeek-V4 Flash
MMLU	88.5%	90.8%	91.2%	88.0%
HumanEval	82.6%	84.1%	90.8%	88.5%
MATH	79.2%	97.3%	86.3%	78.2%
GPQA Diamond	59.1%	71.5%	68.9%	54.7%
HellaSwag	92.8%	93.5%	95.7%	94.1%
TruthfulQA	68.9%	72.3%	79.4%	74.6%

API Pricing（截至 2026 年 4 月）

模型	输入 ($/1M tokens)	输出 ($/1M tokens)	备注
DeepSeek-V4 Pro	$2.00	$8.00	旗舰模型
DeepSeek-V4 Flash	$0.35	$1.40	高性价比（当前本对话使用）
DeepSeek-V3	$0.50	$2.00	上一代主力
DeepSeek-R1	$0.55	$2.19	推理模式，含 CoT tokens

Architecture Notes

MLA (Multi-Head Latent Attention)：DeepSeek 自研注意力机制，大幅降低 KV cache 用量——是 1M 上下文窗口在 MoE 模型上可行的关键原因
极致 MoE 稀疏化：V4-Pro 总参数 1.6T 但仅激活 49B (3%)——推理成本与 49B 稠密模型相当
GRPO（Group Relative Policy Optimization）：DeepSeek 自研 RL 训练方法，无需 Critic/Value Model，简化和稳定了推理模型的 RL 训练
FP8 训练：DeepSeek-V3/V4 全程使用 FP8 混合精度训练，大幅降低训练预算（V4 估计训练成本约 $50M，而同级美国模型约 $500M+）
全系列开源权重 + Apache 2.0 许可（V2/V3/V4 均可下载）

Why It Matters

DeepSeek 是理解开源高性能模型路线的关键样本
它以极低成本（约 US 同行 1/10）实现了匹敌 GPT-4o 的性能，改写了 AI 训练成本方程
它与 OpenAI、Anthropic 的对比，可以观察闭源与开源在产品化和部署成本上的不同取舍
它也与 Mixture of Experts、AI Agents、Transformer Architecture 这些核心概念高度相关
DeepSeek 代表了一个重要趋势：开源模型不再只是"追赶者"，在某些维度（MoE 效率、长上下文成本）甚至领先

Relationships

相关公司/模型：OpenAI、Anthropic、Llama、Qwen、Mistral AI
相关概念：Mixture of Experts、AI Agents、Transformer Architecture、Model Inference & Deployment、Fine-tuning

Open Questions

DeepSeek 路线在长期上更偏向研究展示、开源生态，还是企业级产品化？
其超长上下文（1M）与 Agent 能力在真实任务中的稳健性如何持续验证？
当美国出口管制进一步收紧，DeepSeek 的 GPU 供给链和训练能力能否持续？

Sources

raw/articles/deepseek-v4-hf-blog-2026-04-26.md
raw/articles/deepseek-v4-pro-hf-model-page-2026-04-26.md
DeepSeek Official Documentation (api-docs.deepseek.com)
DeepSeek-V2/V3/R1/V4 Technical Reports