Appearance
Scaling Laws
Scaling Laws(规模定律)描述了模型性能如何随参数规模、数据量和计算量可预测地提升。它们是理解"为什么大模型有效"的底层理论,也是设计和训练现代 LLM 的核心工程指南。
Definition
Scaling Laws 揭示了三个关键变量与模型损失(Loss)之间的幂律关系:
- 参数规模(N):更大的模型 → 更低损失
- 数据量(D):更多训练数据 → 更低损失
- 计算量(C):更多计算资源 → 更低损失
这些关系可以用一个基本公式表达:Loss ≈ a·x⁻ᵝ + c(x 可以是 N、D 或 C,c 是数据固有熵对应的不可约损失)。
Current Understanding
两篇里程碑论文
Kaplan et al.(2020)— OpenAI"Scaling Laws for Neural Language Models"
- 首次系统发现语言模型的幂律缩放关系
- 结论:为达到最优性能,应更大规模地扩展模型参数(N* ∝ C⁰·⁷³),数据扩展速度应慢于参数(D* ∝ C⁰·²⁷)
- 直接影响:GPT-3 175B 的设计思路
Hoffmann et al.(2022)— DeepMind"Training Compute-Optimal LLMs"(Chinchilla)
- 重新审视数据的重要性:模型大小和数据量应同等比例扩展(N* ∝ C⁰·⁵,D* ∝ C⁰·⁵)
- 核心发现:此前大多数模型(包括 GPT-3)都过量参数化、欠训练了
- Chinchilla(70B / 1.4T tokens)证明了"更小模型 + 更多数据"可以击败更大的同类模型
实践影响
- 现代 LLM 设计(Llama、Mistral AI、Qwen、DeepSeek)基本遵循 Chinchilla 最优配比:参数量与 token 数的比例约 1:1(每参数量对应约 20 个 token)
- 给定计算预算 C,应优先按 1:1 比例分配参数和训练数据,而不是堆参数
- Scaling Laws 已被验证可推广到视觉模型(ViT)、强化学习等领域
Why It Matters
- Scaling Laws 是整个大模型时代最根本的理论框架之一——它解释了"为什么更多计算能带来更好模型",而不仅仅是经验之谈
- 它直接决定了模型设计的成本结构:加数据还是加参数?
- 它与 Fine-tuning 和 RLHF 共同构成了现代 LLM 研发的三个理论支柱
- 理解 Scaling Laws 的局限(数据稀缺、硬体验证瓶颈、对齐成本)有助于判断 AI 发展的方向
Related Concepts
- 相关概念:Mixture of Experts、Transformer Architecture、Fine-tuning、RLHF、Synthetic Data
- 相关实体:OpenAI、DeepSeek、Llama
Open Questions
- 数据受限条件下(网络语料有限),Scaling Laws 是否依然成立?数据重复训练的收益如何?
- 后 Chinchilla 时代的最优比值是否需要进一步修正?(Llama 3 使用的 token 比例高于 Chinchilla 建议)
- 对齐成本(RLHF、安全训练)会否改变基本的缩放关系?
Sources
- raw/articles/scaling-laws-research-2026-04-26.md