diff --git a/cn-Book/3.实现注意力机制.md b/cn-Book/3.实现注意力机制.md index 82ce27d..0014c8c 100644 --- a/cn-Book/3.实现注意力机制.md +++ b/cn-Book/3.实现注意力机制.md @@ -1071,11 +1071,11 @@ tensor([[2., 2., 0., 2., 2., 0.], > > 3. **缩放操作的作用** > -> 在应用 dropout 时,一部分注意力权重被随机置零(假设 dropout 率为 p)。剩余的权重会被放大,其放大倍数为 $` \frac{1}{1-p} `$。放大后的权重记为 z′: +> 在应用 dropout 时,一部分注意力权重被随机置零(假设 dropout 率为 p)。剩余的权重会被放大,其放大倍数为 $ \frac{1}{1-p} $。放大后的权重记为 z′: > > $$z_{i}^{\prime}=\frac{z_{i}}{1-p} \quad \text { (对于未被置零的权重) }$$ > -> 此时,未被置零的注意力权重 z′\mathbf{z}'z′ 将作为 Softmax 的输入。因此,dropout 后的缩放对 Softmax 有两个主要影响: +> 此时,未被置零的注意力权重 $ \mathbf{z}' $ 将作为 Softmax 的输入。因此,dropout 后的缩放对 Softmax 有两个主要影响: > > + **增大未遮盖值的相对差异**:放大剩余权重后,它们的数值相对于被置零的权重增大,从而拉大了非零元素之间的相对差异。这使得在 Softmax 计算中(通过前文提过的Softmax公式推导,输入值的**差异越大**,输出分布就会**越尖锐**;而输入值差异越小,输出分布就会越**平滑**),剩下的值之间的对比更明显。 > + **影响 Softmax 输出的分布形态**:当未被置零的权重值被放大后,它们在 Softmax 输出中会更具代表性,注意力分布会更集中(即更尖锐),让模型更关注特定的 token。