Skip to content

Chain-of-Thought & Reasoning Models

让大语言模型在输出最终答案之前进行显式的、可解释的逐步推理。

概述

Chain-of-Thought (CoT) 是一类提示工程技术,通过引导模型生成中间推理步骤来提升复杂推理任务的准确性。该技术经历了从提示模式到模型原生能力的演进,催生了 OpenAI o1/o3、DeepSeek-R1、Claude 扩展思维等推理模型。

核心方法

Chain-of-Thought Prompting (Wei et al. 2022)

最早的系统化 CoT 方法。在提示中加入少量包含逐步推理的示例(Few-shot CoT),或直接要求"让我们逐步思考"(Zero-shot CoT)。

关键发现:

  • 推理能力在模型参数 >100B 时才显著涌现
  • 复杂任务(数学、符号推理、常识推理)提升明显
  • 简单任务(无多步需求)反而可能过度推理

Zero-shot CoT (Kojima et al. 2022)

只需在提示末尾追加 "Let's think step by step"(或中文"让我们逐步思考"),无需示例即可激发推理。

  • 在 GSM8K 上:Zero-shot CoT 准确率比直接回答高 30%+
  • 极低成本的推理增强方法
  • 与其他提示策略正交可叠加

Self-Consistency (Wang et al. 2022)

通过多次采样(temperature > 0)生成多条推理路径,取最一致答案。

  • 比贪心解码提升 5-15% 准确率
  • 计算成本是单次推理的 N 倍(N = 采样次数)
  • 适用于对成本不敏感的高精度场景

Tree-of-Thoughts (Yao et al. 2023)

将线性推理扩展为树状搜索,支持回溯和分支探索。

  • 结合 BFS/DFS 搜索策略
  • 适合需要探索多种可能性的开放问题
  • 计算成本显著高于线性 CoT

演进:从提示到模型原生推理

演进路径:手动 CoT 提示 → 自动化 CoT 生成 → 模型内置推理能力

阶段代表模型机制
提示层GPT-4、Claude 3用户通过提示激发推理
隐藏思维链OpenAI o1 (2024.09)模型内部生成 CoT Token,用户不可见
开源推理DeepSeek-R1 (2025.01)公开推理过程,开源权重
扩展思维Claude 3.7 Sonnet可配置思考预算(budget tokens)
混合推理Gemini 2.0 Flash Thinking流式展示推理过程

推理模型的核心特性

思想 Token(Thinking Tokens)

推理模型在回答前预留额外的输出 Token 用于"思考":

  • o1/o3:隐藏推理过程,只输出最终答案的压缩版本
  • DeepSeek-R1:在 \<think\>\</think\> 标签间展示完整推理
  • Claude 扩展思维:可配置 thinking_budget(如 20K tokens)

扩展推理(Extended Thinking)

模型在推理任务上投入更多计算资源:

  • 数学证明:CoT 可将证明构造分解为引理-定理链
  • 编程竞赛:模拟人类先构思算法再编码
  • 科学推理:多角度分析假设,交叉验证

工程实践

何时使用 CoT

任务类型CoT 效果推荐策略
数学推理+++Zero-shot CoT
逻辑推理++Few-shot CoT
代码生成+Self-Consistency
事实问答-不用或少用
创意写作-不用

参数建议

  • Temperature: 推理任务建议 0-0.3(确定性)
  • Self-Consistency 采样: temperature 0.5-0.7,采样 5-20 次
  • Max tokens: 预留 1.5-3x 输入长度的推理空间

局限与挑战

  • 成本: Self-Consistency 和 Tree-of-Thoughts 显著增加 Token 消耗
  • 过推理: 简单任务上 CoT 可能降低准确率
  • 不可见推理: o1/o3 的黑盒推理过程引发可审计性担忧
  • 评估困难: 推理过程正确但答案错误的情况需要细粒度评估

后续发展

  • 推理时计算缩放(Test-time Compute Scaling): 2024-2025 年核心趋势,通过扩展推理计算提升模型性能
  • 混合推理架构: 简单问题快速回答 + 复杂问题深度推理
  • 协作推理: 多模型或多个推理链协同

相关概念

参考来源

  • Wei et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS.
  • Kojima et al. (2022). "Large Language Models are Zero-Shot Reasoners." NeurIPS.
  • Wang et al. (2022). "Self-Consistency Improves Chain of Thought Reasoning in Language Models." ICLR 2023.
  • Yao et al. (2023). "Tree of Thoughts: Deliberate Problem Solving with Large Language Models." NeurIPS.
  • OpenAI (2024). "Learning to Reason with LLMs." (o1 发布博文)
  • DeepSeek (2025). "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning."
  • Anthropic (2025). "Claude 3.7 Sonnet and Claude Code." (扩展思维功能)

AI Knowledge Base — 持续积累