Linxii's Blog
CS336-3-scaling-lawBlur image

9.Scaling Law basics#

9.1 data与performance的关系#

  可以用一个公式来表示数据量与模型性能的关系: Data vs Performance   假设有NN个样本,然后这些样本服从高斯分布,即xiN(μ,σ2)x_i \sim N(\mu, \sigma^2),如果使用μ^=1Ni=1Nxi\hat{\mu} = \frac{1}{N} \sum_{i=1}^{N} x_i来估计μ\mu,那么估算的均方误差E[(μ^μ)2]=σ2N\mathbb{E}[(\hat{\mu}-\mu)^2]=\frac{\sigma^2}{N}。 然后两边取个log,于是log(error)=log(N)+2log(σ)log(error)=-log(N)+2log(\sigma),误差的对数与数据量的对数成线性关系。这就是一种scaling law。从这里可以认识到任何像1Nα\frac{1}{N^{\alpha}}这样的关系都可以被看作是一种scaling law。

9.2 data 与 model size的关系#

  在进行模型构建时选择哪些呢?

架构

对比不同的架构,发现transformer与LSTM,可以从下面的图中看到结果 Architecture Comparison

优化器

  对比不同的优化器,如Adam与SGD,可以从下面的图中看到结果, Optimizer Comparison

width vs depth

  对比不同的宽度与深度,可以从下面的图中看到结果,当然在实际使用中还需要考虑计算成本与时间成本等因素, Width vs Depth

9.3 hyper-parameter与performance的关系#

batch size

  batch size的影响如下图所示: Batch Size   通过左图可以看出来小 batch 的梯度方向不稳定,路径带有更多噪声,大 batch 的梯度更接近真实方向,路径更直,更稳定。然后但每一步计算成本更高。

  右图中的Noise Scale可以认为是训练中 “噪声刚好被压到可接受水平” 的那个最小批量大小。于是右图的含义就是训练速度与batch size的关系。

  然后可以定义临界批量大小 = 达到目标损失所需的最小样本数 / 达到目标损失所需的最小步数

learning rate

  当模型宽度缩放时,最优学习率也会变化。,因此可以采用mup等方法来进行,当模型缩放时,学习率按固定规律缩放。

9.4 data与model size的数学关系#

  Joint data-model scaling law可以表示为:

Error(N,M)=Nα+Mβ+CError(N, M) = N^{-\alpha}+M^{-\beta}+C

也有研究表明可以表示为下面的式子,基本上是等价的,差了一个常数项,这个代表某个不可降低的最低误差C:

Error(N,M)=(Mα+n1)βError(N, M) =(M^{-\alpha}+n^{-1})^{\beta}
CS336-3-scaling-law
https://tyuou2.github.io/en/blog/cs336-3-scaling-law/
Author 林夕夕
Published at January 27, 2026
Comment seems to stuck. Try to refresh?✨