add third chapter

This commit is contained in:
skindhu 2024-11-02 15:21:18 +08:00
parent d684de5cba
commit 0651456526
1 changed files with 12 additions and 2 deletions

View File

@ -1000,9 +1000,19 @@ tensor([[2., 2., 0., 2., 2., 0.],
> >
> $$z_{i}^{\prime}=\frac{z_{i}}{1-p} \quad \text { (对于未被置零的权重) }$$ > $$z_{i}^{\prime}=\frac{z_{i}}{1-p} \quad \text { (对于未被置零的权重) }$$
> >
> > 此时,未被置零的注意力权重 z\mathbf{z}'z 将作为 Softmax 的输入。因此dropout 后的缩放对 Softmax 有两个主要影响:
> >
> > + **增大未遮盖值的相对差异**:放大剩余权重后,它们的数值相对于被置零的权重增大,从而拉大了非零元素之间的相对差异。这使得在 Softmax 计算中通过前文提过的Softmax公式推导输入值的**差异越大**,输出分布就会**越尖锐**;而输入值差异越小,输出分布就会越**平滑**),剩下的值之间的对比更明显。
> + **影响 Softmax 输出的分布形态**:当未被置零的权重值被放大后,它们在 Softmax 输出中会更具代表性,注意力分布会更集中(即更尖锐),让模型更关注特定的 token。
>
> 缩放后的 Softmax 输入导致注意力分布更倾向于少数的高权重 token使得模型在当前步骤更关注这些 token 的信息。这对模型的影响包括:
>
> + **增强模型的选择性关注**:在训练中,模型会在每个步骤中随机选择不同的 token 进行更高的关注,这使模型在学习时不会依赖特定 token 的注意力。
> + **确保总注意力强度保持一致**:即便经过 dropout 丢弃了一部分权重,缩放保证了剩余权重在 Softmax 后的分布与未应用 dropout 时类似。
>
> 4. **训练过程中多次迭代弥补信息丢失**
>
> 在训练过程中,每个 batch 中的 dropout 掩码都是随机生成的。也就是说,在每次训练时被丢弃的注意力权重是随机的,并不会始终忽略相同的 token。这种**随机性确保了在训练过程中,模型会在多个迭代中多次关注到每个 token**。因此,即便某个 token 在当前的训练步中被忽略,在未来的训练步骤中它仍然会被关注到,从而在整体上避免了信息丢失的问题。
现在,让我们将 dropout 应用于注意力权重矩阵本身: 现在,让我们将 dropout 应用于注意力权重矩阵本身: