Skip to content

Test-Time Compute / Inference-Time Scaling

2024-2025 年 LLM 领域最重要的范式转移:不再只训练更大的模型,而是让模型在回答问题时"想得更久"。Test-Time Compute 正在重新定义智能的衡量方式——从"参数规模"转向"计算深度"。

Overview

Test-Time Compute(测试时计算,也称 Inference-Time Scaling)指在模型推理阶段投入更多计算资源(生成更多 token、进行更多推理步骤、尝试多种方案)来提升输出质量的技术范式。

传统 LLM 的推理是"一次性"的:输入 → 模型 → 输出。Test-Time Compute 则让推理变成"迭代式"的:输入 → 思考 → 再思考 → 评估 → 修正 → 输出。

这一范式的标志性产物是 OpenAI 的 o1/o3 系列和 DeepSeek 的 R1 系列——它们不是通过训练更大的模型来变强,而是通过在推理时进行更深入的思考

The Core Insight

"智能 = 模型大小 × 推理深度"

维度Pre-2024Post-2024
核心指标参数规模、训练 FLOPsTest-Time FLOPs、推理深度
代表模型GPT-4、Claude 3o1、o3、DeepSeek-R1
优化目标训练更快、模型更大推理更"深"、思考更久
成本结构训练贵、推理便宜训练相对固定、推理可弹性扩展

关键论文支撑

Technical Mechanisms

1. Chain-of-Thought Scaling

让模型生成更长的推理链(reasoning chain),逐步分解问题:

问题:一个水池有 2 个进水管和 1 个排水管...

传统回答:直接给出答案 "6 小时"

Test-Time Compute 回答:
  Step 1: 设水池容量为 V
  Step 2: 进水管 A 速度 = V/4,进水管 B 速度 = V/6
  Step 3: 排水管速度 = V/3
  Step 4: 净进水速度 = V/4 + V/6 - V/3 = V/12
  Step 5: 注满时间 = V / (V/12) = 12 小时
  最终答案:12 小时

2. Self-Consistency / Majority Voting

对同一问题采样多个推理路径,取最一致的答案:

问题:...(数学问题)

Sample 1 → 推理链 A → 答案:42
Sample 2 → 推理链 B → 答案:42
Sample 3 → 推理链 C → 答案:37
Sample 4 → 推理链 D → 答案:42
Sample 5 → 推理链 E → 答案:42

Majority Vote: 42(4/5)

在推理空间中进行系统性搜索:

  • Monte Carlo Tree Search (MCTS):评估不同推理路径的价值,优先探索高分路径
  • Beam Search:维护 top-k 个最佳部分推理链,逐步扩展
  • Process Reward Model (PRM):对每个推理步骤打分,引导搜索方向

4. Revision & Self-Correction

模型生成初稿后,自我评估并修正:

Draft 1: ...(可能包含错误)
Self-Critique: "第 3 步的符号处理有误,应该是..."
Draft 2: ...(修正后)
Self-Critique: "验证通过"
Final Answer: ...

The Scaling Laws of Test-Time Compute

Google DeepMind 的研究揭示了 Test-Time Compute 的 scaling 规律:

策略计算扩展方式效果
Verifier-based search用 PRM 指导 MCTS,扩展搜索宽度在数学/代码任务上最有效
Revision让模型迭代修改答案,扩展搜索深度适合可验证的问题
Self-consistency独立采样多次,扩展样本数简单有效,但收益递减快

关键发现

  • 对于简单问题,更多计算收益递减快
  • 对于困难问题,Test-Time Compute 的收益可以线性甚至超线性增长
  • 存在一个"最优分配"问题:给定总计算预算,如何在"训练更大模型"和"推理更多计算"之间分配?

Representative Models

模型机制特点
OpenAI o1 / o3内部推理链 + RL 训练不公开推理过程,通过"思考 token"隐式实现
DeepSeek-R1RL + SFT,显式 CoT开源,展示完整推理链,GRPO 算法
Claude 3.7 Thinking扩展推理模式用户可控的思考预算
Gemini 2.0 Flash Thinking多轮推理Google 的 test-time compute 实现
QwQ (Qwen)推理专用模型阿里开源的 reasoning 模型

Cost Implications

Test-Time Compute 彻底改变了 LLM 的成本结构:

传统 GPT-4:
  输入 1K tokens → $0.03
  输出 1K tokens → $0.06
  总成本:固定

o1 / R1:
  输入 1K tokens → $0.015
  输出 1K tokens → $0.06
  思考 tokens → 可能 10K-100K(隐藏/内部)
  总成本:取决于问题难度,可能 5-50 倍于传统模型

商业影响

  • API 定价从"按输入+输出 token"转向"按推理复杂度"
  • 简单问题用轻量模型,复杂问题用 reasoning 模型——路由策略成为关键
  • 自托管 reasoning 模型的成本远高于传统模型(因为推理时 GPU 占用时间更长)

Why It Matters

  • 范式转移:从" bigger is better "到" deeper is better "——智能不再只由训练决定
  • 解锁新能力:数学、代码、科学推理等需要多步思考的任务,Test-Time Compute 带来的提升远超单纯扩大模型
  • 成本可扩展性:训练大模型需要一次性投入数亿美元,而推理计算可以按需扩展
  • 开源追赶的窗口:DeepSeek-R1 证明开源社区可以通过 Test-Time Compute 在推理能力上追赶闭源巨头

Relationships

Open Questions

  • Test-Time Compute 的极限在哪?无限增加推理计算是否真的能无限提升性能?
  • 不同任务类型的"最优推理预算"如何自动确定?当前主要靠启发式/用户设定
  • 推理链的可解释性:o1 隐藏推理过程,R1 公开——哪种策略更好?
  • 如何将 Test-Time Compute 与 RAG、Tool Use 结合?多步推理中何时该查资料、何时该思考?
  • 端侧设备能否支持 Test-Time Compute?手机上的推理预算极其有限

Sources

AI Knowledge Base — 持续积累