Appearance
DeepSeek-R1 vs OpenAI o3 vs Claude Thinking
2024-2025 年三大推理/思维链模型的全方位对比
对比概览
| 维度 | OpenAI o3 | DeepSeek-R1 | Claude 3.7 Sonnet Thinking |
|---|---|---|---|
| 发布 | 2024-12 (o3), 2025-04 (o3-pro) | 2025-01 | 2025-02 |
| 厂商 | OpenAI | DeepSeek | Anthropic |
| 开原权重 | 否 | 是 (MIT) | 否 |
| 推理过程 | 隐藏(用户不可见) | 可见(在 think 标签中) | 可选(Extended Thinking) |
| 知识截止 | 2024-10 | 2025-03 | 2024-04 |
| 上下文 | 128K | 128K | 256K |
架构差异
OpenAI o3
- 架构: 闭源,基于 GPT-4 系列改进
- 推理机制: 内部隐藏的 CoT Token 链,使用强化学习训练模型"知道该思考多久"
- 变体:
- o3-mini (低/中/高三档推理预算)
- o3-pro (2025-04, 更高计算预算、更多推理路径聚合)
- 关键技术: 推理时计算缩放(Test-time Compute Scaling)、Self-Consistency 聚合
DeepSeek-R1
- 架构: MoE (671B total, 37B active) — 开源于 DeepSeek V3 基础
- 推理机制: 可见的 think 标签内逐步推理,GRPO (Group Relative Policy Optimization) 训练
- 蒸馏版本: R1-Distill-Qwen-1.5B ~ 32B、R1-Distill-Llama-8B ~ 70B
- 关键技术: 纯 RL 推理训练(无 SFT 初始阶段)、大规模 CoT 蒸馏
- 开源: MIT 许可,权重和训练技术全部公开
Claude 3.7 Sonnet Thinking
- 架构: 闭源 Transformer
- 推理机制: Extended Thinking — 在 API 调用中配置 thinking_budget(预算 Token 数)
- 特点: 可在"快速回答"和"深度思考"间切换(同一模型)
- 关键技术: Claude Code 深度集成,thinking budget 可动态配置(2K - 64K tokens)
基准表现对比
| 评测 | o3 | o3-mini (high) | DeepSeek-R1 | Claude 3.7 Thinking |
|---|---|---|---|---|
| MMLU | ~91% | ~88% | 90.8% | 88.3% |
| MMLU-Pro | ~87% | ~83% | 84.0% | 79.6% |
| GPQA Diamond | ~87% | ~79% | 71.5% | 70.7% |
| MATH-500 | ~97% | ~97% | 97.3% | 96.2% |
| AIME 2024 | ~91% | ~87% | 79.2% | — |
| Codeforces (ELO) | ~2600 | ~2380 | 2029 | — |
| SWE-bench Verified | ~71% | ~69% | 49.2% | 58.9% |
| Chatbot Arena ELO | ~1400 | ~1350 | ~1370 | ~1360 |
注:基准数据来源于官方公告、Aider 评测、和 Chatbot Arena。o3 分数为未完全验证的厂商声称值,o3-mini 和 DeepSeek-R1 有第三方验证。
推理机制对比
| 维度 | o3 | DeepSeek-R1 | Claude Thinking |
|---|---|---|---|
| 推理是否可见 | ❌ 不可见 | ✅ 完全可见 | ✅ 可选可见 |
| 思考预算控制 | 通过努力级别(effort) | 自然结束(无预算限制) | thinking_budget 参数 |
| 自我纠错 | 隐式 | 显式(think 内自我质疑) | 显式 |
| 推理终止 | 模型自动判断 | 模型输出 think 结束标签 | 到达 budget 或模型判断完成 |
| 延迟 | 中-高 | 高(完整输出推理链) | 中(可配置) |
成本对比
| 模型 | 输入/百万 token | 输出/百万 token | 推理 Token 成本 |
|---|---|---|---|
| o3 | $10.00 | $40.00 | 不额外计费(已包含在输出中) |
| o3-mini | $1.10 | $4.40 | 不额外计费 |
| DeepSeek-R1 | $0.55 | $2.19 | 推理链 Token 按输出价格计费 |
| Claude 3.7 Thinking | $3.00 | $15.00 | thinking_budget Token 不计费 |
| Claude 3.7(默认) | $3.00 | $15.00 | 非思考模式 |
DeepSeek-R1 输出包含完整推理链(通常 1K-5K tokens),实际有效输出成本约为 2-3x 标称价格。
使用场景推荐
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 数学竞赛/奥数 | o3 / DeepSeek-R1 | 最强数学推理 |
| 编程竞赛 | o3-mini | 性价比最高的 Codeforces 方案 |
| 软件工程任务 | Claude 3.7 Thinking | SWE-bench 最优 |
| 科学推理 | o3 / DeepSeek-R1 | GPQA 领先 |
| 中文推理 | DeepSeek-R1 | 中文能力最佳,开源可自部署 |
| 成本敏感 | DeepSeek-R1 | 价格最低(仍要考虑推理链成本) |
| 需要可解释性 | DeepSeek-R1 / Claude | 推理过程可审计 |
| 高隐私要求 | DeepSeek-R1 (本地部署) | 唯一可本地部署的选择 |
| 最快的推理 | o3-mini (low effort) | 可选低推理预算模式 |
关键洞察
开源 vs 闭源路线之争
- DeepSeek-R1 证明了开源推理模型可以接近闭源水平,MIT 许可让社区可以自由使用和微调
- 蒸馏模型(R1 蒸馏到 1.5B-70B)使小型模型继承推理能力,这在以前只存在于大模型中
推理成本的经济性
- o3 的高价($40/M output)使其适合高价值任务
- DeepSeek-R1 虽然标价低,但因推理链长,实际成本可能达到标价的 2-3x
- Claude 的 thinking 预算不计费是独特优势
企业选择指南
需要可审计推理(金融/医疗/法律)→ Claude Thinking 或 DeepSeek-R1
需要极致性能(竞赛、科研) → o3 或 DeepSeek-R1
需要本地部署(隐私/合规) → DeepSeek-R1
需要平衡性能/成本/隐私 → DeepSeek-R1 + Claude 混合策略相关实体
相关概念
- Chain-of-Thought & Reasoning — 推理模型的基础技术
- Mixture of Experts — DeepSeek-R1 的底层架构
- Model Inference & Deployment — 推理模型的部署考量
参考来源
- OpenAI (2024). "Learning to Reason with LLMs." (o1 和 o3 博客)
- DeepSeek (2025). "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning."
- Anthropic (2025). "Claude 3.7 Sonnet and Claude Code."
- OpenAI (2025). "Introducing o3-pro." (2025-04)
- Aider LLM Leaderboard (2025). Codeforces + SWE-bench 评测排名。
- Chatbot Arena (2025). lmarena.ai 用户投票排名。