add third chapter

This commit is contained in:
skindhu 2024-11-02 15:14:29 +08:00
parent fddcb214ea
commit d684de5cba
1 changed files with 1 additions and 7 deletions

View File

@ -988,12 +988,6 @@ tensor([[2., 2., 0., 2., 2., 0.],
> >
> 1. **Dropout 的目的:提高模型的泛化能力** > 1. **Dropout 的目的:提高模型的泛化能力**
> >
> Softmax 函数的公式如下:
>
> $$\text{softmax}\left(z_{i}\right)=\frac{e^{z_{i}}}{\sum_{j} e^{z_{j}}}$$
>
> 其中z<sub>i</sub>是输入的每个分数即未激活的原始值e 是自然对数的底。这个公式的作用是将输入向量中的每个元素转换为一个概率值,且所有值的和为 1。
>
> dropout 的设计初衷是**提高模型的泛化能力**。通过随机丢弃一部分神经元或注意力权重dropout 迫使模型在每次训练时学习略有不同的表示方式,而不是依赖某一特定的注意力模式。这种随机化的训练方式可以帮助模型在**面对新数据时更具鲁棒性**,减少过拟合的风险。 > dropout 的设计初衷是**提高模型的泛化能力**。通过随机丢弃一部分神经元或注意力权重dropout 迫使模型在每次训练时学习略有不同的表示方式,而不是依赖某一特定的注意力模式。这种随机化的训练方式可以帮助模型在**面对新数据时更具鲁棒性**,减少过拟合的风险。
> >
> 2. **注意力机制的冗余性** > 2. **注意力机制的冗余性**
@ -1004,7 +998,7 @@ tensor([[2., 2., 0., 2., 2., 0.],
> >
> 在应用 dropout 时,一部分注意力权重被随机置零(假设 dropout 率为 p。剩余的权重会被放大其放大倍数为 $` \frac{1}{1-p} `$。放大后的权重记为 z > 在应用 dropout 时,一部分注意力权重被随机置零(假设 dropout 率为 p。剩余的权重会被放大其放大倍数为 $` \frac{1}{1-p} `$。放大后的权重记为 z
> >
> > $$z_{i}^{\prime}=\frac{z_{i}}{1-p} \quad \text { (对于未被置零的权重) }$$
> >
> >
> >