add third chapter
This commit is contained in:
parent
40b650bc71
commit
5c0646ae8c
|
|
@ -286,9 +286,21 @@ Sum: tensor(1.)
|
|||
>
|
||||
> Softmax 函数的公式如下:
|
||||
>
|
||||
> $$ \text{softmax}\left(z_{i}\right)=\frac{e^{z_{i}}}{\sum_{j} e^{z_{j}}} $$
|
||||
> $$ \text{softmax}\left(z_{i}\right)=\frac{e^{z_{i}}}{\sum_{j} e^{z_{j}}} $$
|
||||
>
|
||||
>
|
||||
> 其中z<sub>i</sub>是输入的每个分数(即未激活的原始值),e 是自然对数的底。这个公式的作用是将输入向量中的每个元素转换为一个概率值,且所有值的和为 1。
|
||||
>
|
||||
>
|
||||
> 2. **Softmax 的好处**
|
||||
>
|
||||
> + **归一化输出为概率**:Softmax 将输出转换为 0 到 1 之间的概率,且所有类别的概率之和为 1,方便解释结果。例如,在分类任务中,输出可以直接表示模型对各类别的信心。
|
||||
> + **平滑和放大效果**:Softmax 不仅能归一化,还具有平滑和放大效果。较大的输入值会被放大,较小的输入值会被抑制,从而增强模型对最优类别的区分。
|
||||
> + **支持多分类问题**:与 sigmoid 不同,Softmax 适用于多类别分类问题。它可以输出每个类别的概率,使得模型可以处理多分类任务。
|
||||
>
|
||||
> 3. **神经网络为什么喜欢使用 Softmax**
|
||||
>
|
||||
> 在神经网络中,特别是分类模型(如图像分类、文本分类)中,Softmax 层通常用作最后一层输出。原因包括:
|
||||
>
|
||||
> + **便于优化**:在分类任务中,Softmax 输出的概率分布可与真实的标签概率进行比较,从而计算交叉熵损失。交叉熵损失的梯度较为稳定,便于模型的优化。
|
||||
> + **概率解释**:Softmax 输出可以解释为“模型对每个类别的信心”,使得输出直观可理解。
|
||||
> + **与交叉熵的结合**:Softmax 与交叉熵损失函数结合效果特别好,可以直接将模型预测的概率分布与真实标签比较,从而更快收敛,效果更好。
|
||||
|
||||
|
|
|
|||
Loading…
Reference in New Issue