add third chapter
This commit is contained in:
parent
fb39185680
commit
b446670385
|
|
@ -996,9 +996,9 @@ tensor([[2., 2., 0., 2., 2., 0.],
|
|||
>
|
||||
> 3. **缩放操作的作用**
|
||||
>
|
||||
> 在应用 dropout 时,一部分注意力权重被随机置零(假设 dropout 率为 p)。剩余的权重会被放大,其放大倍数为 $ \frac{1}{1-p} $。放大后的权重记为 z′:
|
||||
> 在应用 dropout 时,一部分注意力权重被随机置零(假设 dropout 率为 p)。剩余的权重会被放大,其放大倍数为 $` \frac{1}{1-p} `$。放大后的权重记为 z′:
|
||||
>
|
||||
> $$ z_{i}^{\prime}=\frac{z_{i}}{1-p} \quad \text { (对于未被置零的权重) } $$
|
||||
> $$ \frac{z_{i}}{1-p} \quad \text { (对于未被置零的权重) } $$
|
||||
>
|
||||
>
|
||||
>
|
||||
|
|
|
|||
Loading…
Reference in New Issue