feature: 补充激活函数说明,调整部分文本格式

This commit is contained in:
Ning Guo 2025-07-29 11:29:05 +08:00
parent 0bddde0db1
commit f130e6e39c
2 changed files with 12 additions and 2 deletions

View File

@ -869,7 +869,7 @@ Targets:
>
> GPT 类模型(以及其他深度神经网络)是基于大量的矩阵运算和数值计算构建的,尤其是神经元之间的连接权重和偏置在训练过程中不断更新。这些运算要求输入的数据是**数值形式的向量**,因为神经网络只能对数值数据进行有效计算,而无法直接处理原始的离散文字数据(如单词、句子)。
>
> + **向量表示 **通过将每个单词、句子或段落转换为连续向量Embedding可以在高维空间中表示文本的语义关系。例如通过词嵌入如 Word2Vec、GloVe或上下文嵌入如 GPT 中的词嵌入层),每个单词都被转换为一个向量,这个向量可以用于神经网络的计算。
> + **向量表示**通过将每个单词、句子或段落转换为连续向量Embedding可以在高维空间中表示文本的语义关系。例如通过词嵌入如 Word2Vec、GloVe或上下文嵌入如 GPT 中的词嵌入层),每个单词都被转换为一个向量,这个向量可以用于神经网络的计算。
>
> 2. **向量嵌入的作用**
>

View File

@ -345,6 +345,16 @@ Sum: tensor(1.)
> + **便于优化**在分类任务中Softmax 输出的概率分布可与真实的标签概率进行比较,从而计算交叉熵损失。交叉熵损失的梯度较为稳定,便于模型的优化。
> + **概率解释**Softmax 输出可以解释为“模型对每个类别的信心”,使得输出直观可理解。
> + **与交叉熵的结合**Softmax 与交叉熵损失函数结合效果特别好,可以直接将模型预测的概率分布与真实标签比较,从而更快收敛,效果更好。
>
> 4. **激活函数**
>
> 激活函数(`Activation Function`)是神经网络中的核心组件,它的作用类似于神经元的“**开关**”或“**过滤器**”,负责决定神经元**是否被激活**(即输出信号),以及**激活的程度**。
>
> 在神经网络中,激活函数通常用于将输入信号转换为输出信号,从而实现**非线性变换**。 常见的激活函数包括:
>
> + **Sigmoid**将输入信号转换为0到1之间的概率值常用于二分类问题。
> + **ReLU**将输入信号转换为0到正无穷之间的值常用于多分类问题。
> + **Softmax**将输入信号转换为0到1之间的概率值常用于多分类问题。
现在我们已经计算出了归一化的注意力权重,接下来可以执行图 3.10 所示的最后一步:通过将嵌入后的输入 token x<sup>(i)</sup> 与相应的注意力权重相乘,再将所得向量求和来计算上下文向量 z<sup>(2)</sup>
@ -629,7 +639,7 @@ print(attn_score_22)
>
> **K<sub>it</sub> = W<sub>k</sub> * (E<sub>it</sub> + Pos<sub>it</sub>)**
>
> 其中 **E<sub>cat</sub>**和**E<sub>it</sub>**是这两个词的嵌入向量,表示该词的基本语义信息,在不同的上下文中是固定的,根据公式可知,要使最终算出的**score_cat_it**与上下文语义相关,最重要的是**W<sub>q</sub>** 和**W<sub>k</sub>**这两个权重参数应该能反映出不同上下文语义的相关性。在标准的自注意力机制中W、K、V向量都是固定的然而由于 GPT 模型是由多层自注意力模块堆叠而成,每一层都会根据当前输入和上下文信息,动态调整查询、键和值向量的权重矩阵。因此,即使初始的词嵌入和权重矩阵是固定的,经过多层处理后,模型能够生成与当前上下文相关的 Q、K、V 向量权重矩阵最终计算出的Q、K、V 向量也就能反映出上下文的语义了。GPT多层的实现的细节后文会详述。
> 其中 **E<sub>cat</sub>**和**E<sub>it</sub>**是这两个词的嵌入向量,表示该词的基本语义信息,在不同的上下文中是固定的,根据公式可知,要使最终算出的**score_cat_it**与上下文语义相关,最重要的是**W<sub>q</sub>** **W<sub>k</sub>** 这两个权重参数应该能反映出不同上下文语义的相关性。在标准的自注意力机制中W、K、V向量都是固定的然而由于 GPT 模型是由多层自注意力模块堆叠而成,每一层都会根据当前输入和上下文信息,动态调整查询、键和值向量的**权重矩阵**。因此,即使初始的词嵌入和权重矩阵是固定的,经过多层处理后,模型能够生成与当前上下文相关的 Q、K、V 向量权重矩阵最终计算出的Q、K、V 向量也就能反映出上下文的语义了。GPT多层的实现的细节后文会详述。
我们可以再次通过矩阵乘法将其应用到所有注意力得分的计算: