fix typos
This commit is contained in:
parent
f130e6e39c
commit
ec6e3c60e2
|
|
@ -1071,11 +1071,11 @@ tensor([[2., 2., 0., 2., 2., 0.],
|
||||||
>
|
>
|
||||||
> 3. **缩放操作的作用**
|
> 3. **缩放操作的作用**
|
||||||
>
|
>
|
||||||
> 在应用 dropout 时,一部分注意力权重被随机置零(假设 dropout 率为 p)。剩余的权重会被放大,其放大倍数为 $` \frac{1}{1-p} `$。放大后的权重记为 z′:
|
> 在应用 dropout 时,一部分注意力权重被随机置零(假设 dropout 率为 p)。剩余的权重会被放大,其放大倍数为 $ \frac{1}{1-p} $。放大后的权重记为 z′:
|
||||||
>
|
>
|
||||||
> $$z_{i}^{\prime}=\frac{z_{i}}{1-p} \quad \text { (对于未被置零的权重) }$$
|
> $$z_{i}^{\prime}=\frac{z_{i}}{1-p} \quad \text { (对于未被置零的权重) }$$
|
||||||
>
|
>
|
||||||
> 此时,未被置零的注意力权重 z′\mathbf{z}'z′ 将作为 Softmax 的输入。因此,dropout 后的缩放对 Softmax 有两个主要影响:
|
> 此时,未被置零的注意力权重 $ \mathbf{z}' $ 将作为 Softmax 的输入。因此,dropout 后的缩放对 Softmax 有两个主要影响:
|
||||||
>
|
>
|
||||||
> + **增大未遮盖值的相对差异**:放大剩余权重后,它们的数值相对于被置零的权重增大,从而拉大了非零元素之间的相对差异。这使得在 Softmax 计算中(通过前文提过的Softmax公式推导,输入值的**差异越大**,输出分布就会**越尖锐**;而输入值差异越小,输出分布就会越**平滑**),剩下的值之间的对比更明显。
|
> + **增大未遮盖值的相对差异**:放大剩余权重后,它们的数值相对于被置零的权重增大,从而拉大了非零元素之间的相对差异。这使得在 Softmax 计算中(通过前文提过的Softmax公式推导,输入值的**差异越大**,输出分布就会**越尖锐**;而输入值差异越小,输出分布就会越**平滑**),剩下的值之间的对比更明显。
|
||||||
> + **影响 Softmax 输出的分布形态**:当未被置零的权重值被放大后,它们在 Softmax 输出中会更具代表性,注意力分布会更集中(即更尖锐),让模型更关注特定的 token。
|
> + **影响 Softmax 输出的分布形态**:当未被置零的权重值被放大后,它们在 Softmax 输出中会更具代表性,注意力分布会更集中(即更尖锐),让模型更关注特定的 token。
|
||||||
|
|
|
||||||
Loading…
Reference in New Issue