fix typos

This commit is contained in:
Ning Guo 2025-07-30 11:24:33 +08:00
parent f130e6e39c
commit ec6e3c60e2
1 changed files with 2 additions and 2 deletions

View File

@ -1071,11 +1071,11 @@ tensor([[2., 2., 0., 2., 2., 0.],
>
> 3. **缩放操作的作用**
>
> 在应用 dropout 时,一部分注意力权重被随机置零(假设 dropout 率为 p。剩余的权重会被放大其放大倍数为 $` \frac{1}{1-p} `$。放大后的权重记为 z
> 在应用 dropout 时,一部分注意力权重被随机置零(假设 dropout 率为 p。剩余的权重会被放大其放大倍数为 $ \frac{1}{1-p} $。放大后的权重记为 z
>
> $$z_{i}^{\prime}=\frac{z_{i}}{1-p} \quad \text { (对于未被置零的权重) }$$
>
> 此时,未被置零的注意力权重 z\mathbf{z}'z 将作为 Softmax 的输入。因此dropout 后的缩放对 Softmax 有两个主要影响:
> 此时,未被置零的注意力权重 $ \mathbf{z}' $ 将作为 Softmax 的输入。因此dropout 后的缩放对 Softmax 有两个主要影响:
>
> + **增大未遮盖值的相对差异**:放大剩余权重后,它们的数值相对于被置零的权重增大,从而拉大了非零元素之间的相对差异。这使得在 Softmax 计算中通过前文提过的Softmax公式推导输入值的**差异越大**,输出分布就会**越尖锐**;而输入值差异越小,输出分布就会越**平滑**),剩下的值之间的对比更明显。
> + **影响 Softmax 输出的分布形态**:当未被置零的权重值被放大后,它们在 Softmax 输出中会更具代表性,注意力分布会更集中(即更尖锐),让模型更关注特定的 token。