add third chapter
This commit is contained in:
parent
34aafd088c
commit
4d85a1630d
|
|
@ -988,6 +988,12 @@ tensor([[2., 2., 0., 2., 2., 0.],
|
||||||
>
|
>
|
||||||
> 1. **Dropout 的目的:提高模型的泛化能力**
|
> 1. **Dropout 的目的:提高模型的泛化能力**
|
||||||
>
|
>
|
||||||
|
> Softmax 函数的公式如下:
|
||||||
|
>
|
||||||
|
> $$ \text{softmax}\left(z_{i}\right)=\frac{e^{z_{i}}}{\sum_{j} e^{z_{j}}} $$
|
||||||
|
>
|
||||||
|
> 其中z<sub>i</sub>是输入的每个分数(即未激活的原始值),e 是自然对数的底。这个公式的作用是将输入向量中的每个元素转换为一个概率值,且所有值的和为 1。
|
||||||
|
>
|
||||||
> dropout 的设计初衷是**提高模型的泛化能力**。通过随机丢弃一部分神经元或注意力权重,dropout 迫使模型在每次训练时学习略有不同的表示方式,而不是依赖某一特定的注意力模式。这种随机化的训练方式可以帮助模型在**面对新数据时更具鲁棒性**,减少过拟合的风险。
|
> dropout 的设计初衷是**提高模型的泛化能力**。通过随机丢弃一部分神经元或注意力权重,dropout 迫使模型在每次训练时学习略有不同的表示方式,而不是依赖某一特定的注意力模式。这种随机化的训练方式可以帮助模型在**面对新数据时更具鲁棒性**,减少过拟合的风险。
|
||||||
>
|
>
|
||||||
> 2. **注意力机制的冗余性**
|
> 2. **注意力机制的冗余性**
|
||||||
|
|
@ -1000,11 +1006,7 @@ tensor([[2., 2., 0., 2., 2., 0.],
|
||||||
>
|
>
|
||||||
>
|
>
|
||||||
>
|
>
|
||||||
> Softmax 函数的公式如下:
|
|
||||||
>
|
>
|
||||||
> $$ \text{softmax}\left(z_{i}\right)=\frac{e^{z_{i}}}{\sum_{j} e^{z_{j}}} $$
|
|
||||||
>
|
|
||||||
> 其中z<sub>i</sub>是输入的每个分数(即未激活的原始值),e 是自然对数的底。这个公式的作用是将输入向量中的每个元素转换为一个概率值,且所有值的和为 1。
|
|
||||||
>
|
>
|
||||||
>
|
>
|
||||||
|
|
||||||
|
|
|
||||||
Loading…
Reference in New Issue