add third chapter

This commit is contained in:
skindhu 2024-11-01 15:41:23 +08:00
parent 5b9268a01c
commit d773eee68c
1 changed files with 1 additions and 1 deletions

View File

@ -623,6 +623,6 @@ print(attn_weights_2)
> + **Softmax函数的特性**在计算注意力权重时点积结果会通过Softmax函数转换为概率分布。而Softmax函数对输入值的差异非常敏感当输入值较大时Softmax的输出会趋近于0或1表现得类似于阶跃函数step function > + **Softmax函数的特性**在计算注意力权重时点积结果会通过Softmax函数转换为概率分布。而Softmax函数对输入值的差异非常敏感当输入值较大时Softmax的输出会趋近于0或1表现得类似于阶跃函数step function
> + **梯度消失问题**当Softmax的输出接近0或1时其梯度会非常小接近于零可以通过3.3.1小节中提到的Softmax公式推断。这意味着在反向传播过程中梯度更新幅度会很小导致模型学习速度减慢甚至训练停滞。 > + **梯度消失问题**当Softmax的输出接近0或1时其梯度会非常小接近于零可以通过3.3.1小节中提到的Softmax公式推断。这意味着在反向传播过程中梯度更新幅度会很小导致模型学习速度减慢甚至训练停滞。
> >
> 为了解决上述问题,在计算点积后,将结果除以嵌入维度的平方根(即 $ \sqrt{d<sub>k</sub>} $),其中 d<sub>k</sub> 是键向量的维度。这样可以将点积结果缩放到适当的范围避免Softmax函数进入梯度平缓区从而保持梯度的有效性促进模型的正常训练。 > 为了解决上述问题,在计算点积后,将结果除以嵌入维度的平方根(即 $$ \sqrt{d<sub>k</sub>} $$),其中 d<sub>k</sub> 是键向量的维度。这样可以将点积结果缩放到适当的范围避免Softmax函数进入梯度平缓区从而保持梯度的有效性促进模型的正常训练。
> >
> >