Appearance
Chain-of-Thought & Reasoning Models
让大语言模型在输出最终答案之前进行显式的、可解释的逐步推理。
概述
Chain-of-Thought (CoT) 是一类提示工程技术,通过引导模型生成中间推理步骤来提升复杂推理任务的准确性。该技术经历了从提示模式到模型原生能力的演进,催生了 OpenAI o1/o3、DeepSeek-R1、Claude 扩展思维等推理模型。
核心方法
Chain-of-Thought Prompting (Wei et al. 2022)
最早的系统化 CoT 方法。在提示中加入少量包含逐步推理的示例(Few-shot CoT),或直接要求"让我们逐步思考"(Zero-shot CoT)。
关键发现:
- 推理能力在模型参数 >100B 时才显著涌现
- 复杂任务(数学、符号推理、常识推理)提升明显
- 简单任务(无多步需求)反而可能过度推理
Zero-shot CoT (Kojima et al. 2022)
只需在提示末尾追加 "Let's think step by step"(或中文"让我们逐步思考"),无需示例即可激发推理。
- 在 GSM8K 上:Zero-shot CoT 准确率比直接回答高 30%+
- 极低成本的推理增强方法
- 与其他提示策略正交可叠加
Self-Consistency (Wang et al. 2022)
通过多次采样(temperature > 0)生成多条推理路径,取最一致答案。
- 比贪心解码提升 5-15% 准确率
- 计算成本是单次推理的 N 倍(N = 采样次数)
- 适用于对成本不敏感的高精度场景
Tree-of-Thoughts (Yao et al. 2023)
将线性推理扩展为树状搜索,支持回溯和分支探索。
- 结合 BFS/DFS 搜索策略
- 适合需要探索多种可能性的开放问题
- 计算成本显著高于线性 CoT
演进:从提示到模型原生推理
演进路径:手动 CoT 提示 → 自动化 CoT 生成 → 模型内置推理能力
| 阶段 | 代表模型 | 机制 |
|---|---|---|
| 提示层 | GPT-4、Claude 3 | 用户通过提示激发推理 |
| 隐藏思维链 | OpenAI o1 (2024.09) | 模型内部生成 CoT Token,用户不可见 |
| 开源推理 | DeepSeek-R1 (2025.01) | 公开推理过程,开源权重 |
| 扩展思维 | Claude 3.7 Sonnet | 可配置思考预算(budget tokens) |
| 混合推理 | Gemini 2.0 Flash Thinking | 流式展示推理过程 |
推理模型的核心特性
思想 Token(Thinking Tokens)
推理模型在回答前预留额外的输出 Token 用于"思考":
- o1/o3:隐藏推理过程,只输出最终答案的压缩版本
- DeepSeek-R1:在
\<think\>和\</think\>标签间展示完整推理 - Claude 扩展思维:可配置 thinking_budget(如 20K tokens)
扩展推理(Extended Thinking)
模型在推理任务上投入更多计算资源:
- 数学证明:CoT 可将证明构造分解为引理-定理链
- 编程竞赛:模拟人类先构思算法再编码
- 科学推理:多角度分析假设,交叉验证
工程实践
何时使用 CoT
| 任务类型 | CoT 效果 | 推荐策略 |
|---|---|---|
| 数学推理 | +++ | Zero-shot CoT |
| 逻辑推理 | ++ | Few-shot CoT |
| 代码生成 | + | Self-Consistency |
| 事实问答 | - | 不用或少用 |
| 创意写作 | - | 不用 |
参数建议
- Temperature: 推理任务建议 0-0.3(确定性)
- Self-Consistency 采样: temperature 0.5-0.7,采样 5-20 次
- Max tokens: 预留 1.5-3x 输入长度的推理空间
局限与挑战
- 成本: Self-Consistency 和 Tree-of-Thoughts 显著增加 Token 消耗
- 过推理: 简单任务上 CoT 可能降低准确率
- 不可见推理: o1/o3 的黑盒推理过程引发可审计性担忧
- 评估困难: 推理过程正确但答案错误的情况需要细粒度评估
后续发展
- 推理时计算缩放(Test-time Compute Scaling): 2024-2025 年核心趋势,通过扩展推理计算提升模型性能
- 混合推理架构: 简单问题快速回答 + 复杂问题深度推理
- 协作推理: 多模型或多个推理链协同
相关概念
- AI Agents — 结合推理与工具调用的 AI 系统
- LLM Evaluation — 推理能力评测(MMLU、GPQA、MATH)
- Fine-tuning — 通过训练强化推理能力
- Scaling Laws — 推理时计算的缩放规律
参考来源
- Wei et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS.
- Kojima et al. (2022). "Large Language Models are Zero-Shot Reasoners." NeurIPS.
- Wang et al. (2022). "Self-Consistency Improves Chain of Thought Reasoning in Language Models." ICLR 2023.
- Yao et al. (2023). "Tree of Thoughts: Deliberate Problem Solving with Large Language Models." NeurIPS.
- OpenAI (2024). "Learning to Reason with LLMs." (o1 发布博文)
- DeepSeek (2025). "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning."
- Anthropic (2025). "Claude 3.7 Sonnet and Claude Code." (扩展思维功能)