Scaling Laws

Scaling Laws（规模定律）描述了模型性能如何随参数规模、数据量和计算量可预测地提升。它们是理解"为什么大模型有效"的底层理论，也是设计和训练现代 LLM 的核心工程指南。

Definition

Scaling Laws 揭示了三个关键变量与模型损失（Loss）之间的幂律关系：

参数规模（N）：更大的模型 → 更低损失
数据量（D）：更多训练数据 → 更低损失
计算量（C）：更多计算资源 → 更低损失

这些关系可以用一个基本公式表达：Loss ≈ a·x⁻ᵝ + c（x 可以是 N、D 或 C，c 是数据固有熵对应的不可约损失）。

Current Understanding

两篇里程碑论文

Kaplan et al.（2020）— OpenAI"Scaling Laws for Neural Language Models"

首次系统发现语言模型的幂律缩放关系
结论：为达到最优性能，应更大规模地扩展模型参数（N* ∝ C⁰·⁷³），数据扩展速度应慢于参数（D* ∝ C⁰·²⁷）
直接影响：GPT-3 175B 的设计思路

Hoffmann et al.（2022）— DeepMind"Training Compute-Optimal LLMs"（Chinchilla）

重新审视数据的重要性：模型大小和数据量应同等比例扩展（N* ∝ C⁰·⁵，D* ∝ C⁰·⁵）
核心发现：此前大多数模型（包括 GPT-3）都过量参数化、欠训练了
Chinchilla（70B / 1.4T tokens）证明了"更小模型 + 更多数据"可以击败更大的同类模型

实践影响

现代 LLM 设计（Llama、Mistral AI、Qwen、DeepSeek）基本遵循 Chinchilla 最优配比：参数量与 token 数的比例约 1:1（每参数量对应约 20 个 token）
给定计算预算 C，应优先按 1:1 比例分配参数和训练数据，而不是堆参数
Scaling Laws 已被验证可推广到视觉模型（ViT）、强化学习等领域

Why It Matters

Scaling Laws 是整个大模型时代最根本的理论框架之一——它解释了"为什么更多计算能带来更好模型"，而不仅仅是经验之谈
它直接决定了模型设计的成本结构：加数据还是加参数？
它与 Fine-tuning 和 RLHF 共同构成了现代 LLM 研发的三个理论支柱
理解 Scaling Laws 的局限（数据稀缺、硬体验证瓶颈、对齐成本）有助于判断 AI 发展的方向

相关概念：Mixture of Experts、Transformer Architecture、Fine-tuning、RLHF、Synthetic Data
相关实体：OpenAI、DeepSeek、Llama

Open Questions

数据受限条件下（网络语料有限），Scaling Laws 是否依然成立？数据重复训练的收益如何？
后 Chinchilla 时代的最优比值是否需要进一步修正？（Llama 3 使用的 token 比例高于 Chinchilla 建议）
对齐成本（RLHF、安全训练）会否改变基本的缩放关系？

Sources

raw/articles/scaling-laws-research-2026-04-26.md