Skip to content

Scaling Laws

Scaling Laws(规模定律)描述了模型性能如何随参数规模、数据量和计算量可预测地提升。它们是理解"为什么大模型有效"的底层理论,也是设计和训练现代 LLM 的核心工程指南。

Definition

Scaling Laws 揭示了三个关键变量与模型损失(Loss)之间的幂律关系

  • 参数规模(N):更大的模型 → 更低损失
  • 数据量(D):更多训练数据 → 更低损失
  • 计算量(C):更多计算资源 → 更低损失

这些关系可以用一个基本公式表达:Loss ≈ a·x⁻ᵝ + c(x 可以是 N、D 或 C,c 是数据固有熵对应的不可约损失)。

Current Understanding

两篇里程碑论文

Kaplan et al.(2020)— OpenAI"Scaling Laws for Neural Language Models"

  • 首次系统发现语言模型的幂律缩放关系
  • 结论:为达到最优性能,应更大规模地扩展模型参数(N* ∝ C⁰·⁷³),数据扩展速度应慢于参数(D* ∝ C⁰·²⁷)
  • 直接影响:GPT-3 175B 的设计思路

Hoffmann et al.(2022)— DeepMind"Training Compute-Optimal LLMs"(Chinchilla)

  • 重新审视数据的重要性:模型大小和数据量应同等比例扩展(N* ∝ C⁰·⁵,D* ∝ C⁰·⁵)
  • 核心发现:此前大多数模型(包括 GPT-3)都过量参数化、欠训练
  • Chinchilla(70B / 1.4T tokens)证明了"更小模型 + 更多数据"可以击败更大的同类模型

实践影响

  • 现代 LLM 设计(LlamaMistral AIQwenDeepSeek)基本遵循 Chinchilla 最优配比:参数量与 token 数的比例约 1:1(每参数量对应约 20 个 token)
  • 给定计算预算 C,应优先按 1:1 比例分配参数和训练数据,而不是堆参数
  • Scaling Laws 已被验证可推广到视觉模型(ViT)、强化学习等领域

Why It Matters

  • Scaling Laws 是整个大模型时代最根本的理论框架之一——它解释了"为什么更多计算能带来更好模型",而不仅仅是经验之谈
  • 它直接决定了模型设计的成本结构:加数据还是加参数?
  • 它与 Fine-tuningRLHF 共同构成了现代 LLM 研发的三个理论支柱
  • 理解 Scaling Laws 的局限(数据稀缺、硬体验证瓶颈、对齐成本)有助于判断 AI 发展的方向

Open Questions

  • 数据受限条件下(网络语料有限),Scaling Laws 是否依然成立?数据重复训练的收益如何?
  • 后 Chinchilla 时代的最优比值是否需要进一步修正?(Llama 3 使用的 token 比例高于 Chinchilla 建议)
  • 对齐成本(RLHF、安全训练)会否改变基本的缩放关系?

Sources

  • raw/articles/scaling-laws-research-2026-04-26.md

AI Knowledge Base — 持续积累