Chain-of-Thought & Reasoning Models

让大语言模型在输出最终答案之前进行显式的、可解释的逐步推理。

概述

Chain-of-Thought (CoT) 是一类提示工程技术，通过引导模型生成中间推理步骤来提升复杂推理任务的准确性。该技术经历了从提示模式到模型原生能力的演进，催生了 OpenAI o1/o3、DeepSeek-R1、Claude 扩展思维等推理模型。

核心方法

Chain-of-Thought Prompting (Wei et al. 2022)

最早的系统化 CoT 方法。在提示中加入少量包含逐步推理的示例（Few-shot CoT），或直接要求"让我们逐步思考"（Zero-shot CoT）。

关键发现：

推理能力在模型参数 >100B 时才显著涌现
复杂任务（数学、符号推理、常识推理）提升明显
简单任务（无多步需求）反而可能过度推理

Zero-shot CoT (Kojima et al. 2022)

只需在提示末尾追加 "Let's think step by step"（或中文"让我们逐步思考"），无需示例即可激发推理。

在 GSM8K 上：Zero-shot CoT 准确率比直接回答高 30%+
极低成本的推理增强方法
与其他提示策略正交可叠加

Self-Consistency (Wang et al. 2022)

通过多次采样（temperature > 0）生成多条推理路径，取最一致答案。

比贪心解码提升 5-15% 准确率
计算成本是单次推理的 N 倍（N = 采样次数）
适用于对成本不敏感的高精度场景

Tree-of-Thoughts (Yao et al. 2023)

将线性推理扩展为树状搜索，支持回溯和分支探索。

结合 BFS/DFS 搜索策略
适合需要探索多种可能性的开放问题
计算成本显著高于线性 CoT

演进：从提示到模型原生推理

演进路径：手动 CoT 提示 → 自动化 CoT 生成 → 模型内置推理能力

阶段	代表模型	机制
提示层	GPT-4、Claude 3	用户通过提示激发推理
隐藏思维链	OpenAI o1 (2024.09)	模型内部生成 CoT Token，用户不可见
开源推理	DeepSeek-R1 (2025.01)	公开推理过程，开源权重
扩展思维	Claude 3.7 Sonnet	可配置思考预算（budget tokens）
混合推理	Gemini 2.0 Flash Thinking	流式展示推理过程

推理模型的核心特性

思想 Token（Thinking Tokens）

推理模型在回答前预留额外的输出 Token 用于"思考"：

o1/o3：隐藏推理过程，只输出最终答案的压缩版本
DeepSeek-R1：在 \<think\> 和 \</think\> 标签间展示完整推理
Claude 扩展思维：可配置 thinking_budget（如 20K tokens）

扩展推理（Extended Thinking）

模型在推理任务上投入更多计算资源：

数学证明：CoT 可将证明构造分解为引理-定理链
编程竞赛：模拟人类先构思算法再编码
科学推理：多角度分析假设，交叉验证

工程实践

何时使用 CoT

任务类型	CoT 效果	推荐策略
数学推理	+++	Zero-shot CoT
逻辑推理	++	Few-shot CoT
代码生成	+	Self-Consistency
事实问答	-	不用或少用
创意写作	-	不用

参数建议

Temperature: 推理任务建议 0-0.3（确定性）
Self-Consistency 采样: temperature 0.5-0.7，采样 5-20 次
Max tokens: 预留 1.5-3x 输入长度的推理空间

局限与挑战

成本: Self-Consistency 和 Tree-of-Thoughts 显著增加 Token 消耗
过推理: 简单任务上 CoT 可能降低准确率
不可见推理: o1/o3 的黑盒推理过程引发可审计性担忧
评估困难: 推理过程正确但答案错误的情况需要细粒度评估

后续发展

推理时计算缩放（Test-time Compute Scaling）: 2024-2025 年核心趋势，通过扩展推理计算提升模型性能
混合推理架构: 简单问题快速回答 + 复杂问题深度推理
协作推理: 多模型或多个推理链协同

参考来源

Wei et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS.
Kojima et al. (2022). "Large Language Models are Zero-Shot Reasoners." NeurIPS.
Wang et al. (2022). "Self-Consistency Improves Chain of Thought Reasoning in Language Models." ICLR 2023.
Yao et al. (2023). "Tree of Thoughts: Deliberate Problem Solving with Large Language Models." NeurIPS.
OpenAI (2024). "Learning to Reason with LLMs." (o1 发布博文)
DeepSeek (2025). "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning."
Anthropic (2025). "Claude 3.7 Sonnet and Claude Code." (扩展思维功能)

Chain-of-Thought & Reasoning Models ​

概述 ​

核心方法 ​

Chain-of-Thought Prompting (Wei et al. 2022) ​

Zero-shot CoT (Kojima et al. 2022) ​

Self-Consistency (Wang et al. 2022) ​

Tree-of-Thoughts (Yao et al. 2023) ​

演进：从提示到模型原生推理 ​

推理模型的核心特性 ​

思想 Token（Thinking Tokens） ​

扩展推理（Extended Thinking） ​

工程实践 ​

何时使用 CoT ​

参数建议 ​

局限与挑战 ​

后续发展 ​

相关概念 ​

参考来源 ​