fix typos

2025-07-30 11:24:33 +08:00 · 2025-07-30 11:24:33 +08:00 · ec6e3c60e2
parent f130e6e39c
commit ec6e3c60e2
1 changed files with 2 additions and 2 deletions
--- a/cn-Book/3.实现注意力机制.md
+++ b/cn-Book/3.实现注意力机制.md
@ -1071,11 +1071,11 @@ tensor([[2., 2., 0., 2., 2., 0.],
 >
 > 3. **缩放操作的作用**
 >
->    在应用 dropout 时，一部分注意力权重被随机置零（假设 dropout 率为 p）。剩余的权重会被放大，其放大倍数为 $` \frac{1}{1-p}  `$。放大后的权重记为 z′：
+>    在应用 dropout 时，一部分注意力权重被随机置零（假设 dropout 率为 p）。剩余的权重会被放大，其放大倍数为 $ \frac{1}{1-p}  $。放大后的权重记为 z′：
 >
 >    $$z_{i}^{\prime}=\frac{z_{i}}{1-p} \quad \text { (对于未被置零的权重) }$$
 >
->    此时，未被置零的注意力权重 z′\mathbf{z}'z′ 将作为 Softmax 的输入。因此，dropout 后的缩放对 Softmax 有两个主要影响：
+>    此时，未被置零的注意力权重 $ \mathbf{z}' $ 将作为 Softmax 的输入。因此，dropout 后的缩放对 Softmax 有两个主要影响：
 >
 >    + **增大未遮盖值的相对差异**：放大剩余权重后，它们的数值相对于被置零的权重增大，从而拉大了非零元素之间的相对差异。这使得在 Softmax 计算中（通过前文提过的Softmax公式推导，输入值的**差异越大**，输出分布就会**越尖锐**；而输入值差异越小，输出分布就会越**平滑**），剩下的值之间的对比更明显。
 >    + **影响 Softmax 输出的分布形态**：当未被置零的权重值被放大后，它们在 Softmax 输出中会更具代表性，注意力分布会更集中（即更尖锐），让模型更关注特定的 token。