diff --git a/cn-Book/3.实现注意力机制.md b/cn-Book/3.实现注意力机制.md index a711b04..267fa71 100644 --- a/cn-Book/3.实现注意力机制.md +++ b/cn-Book/3.实现注意力机制.md @@ -998,13 +998,13 @@ tensor([[2., 2., 0., 2., 2., 0.], > > 在应用 dropout 时,一部分注意力权重被随机置零(假设 dropout 率为 p)。剩余的权重会被放大,其放大倍数为 $` \frac{1}{1-p} `$。放大后的权重记为 z′: > -> $$ \text{z_{i}}^{\prime}=\frac{z_{i}}{1-p} \quad \text { (对于未被置零的权重) } $$ +> $$ \text{z_{i}}^{\prime}=\frac{z_{i}}{1-p} \quad \text { (对于未被置零的权重) } $$ > -> $$ \text{softmax}\left(z_{i}\right)=\frac{e^{z_{i}}}{\sum_{j} e^{z_{j}}} $$ +> > -> +> $$ \text{softmax}\left(z_{i}\right)=\frac{e^{z_{i}}}{\sum_{j} e^{z_{j}}} $$ > -> +> 111 现在,让我们将 dropout 应用于注意力权重矩阵本身: