add fourth chapter
This commit is contained in:
parent
ffec70e381
commit
1c97bfe724
|
|
@ -633,7 +633,7 @@ layers.4.0.weight has gradient mean of 1.3258541822433472
|
||||||
> 1. **自注意力层(Self-Attention Layer)**:计算每个 token 与其他 token 的关联,帮助模型理解上下文。
|
> 1. **自注意力层(Self-Attention Layer)**:计算每个 token 与其他 token 的关联,帮助模型理解上下文。
|
||||||
> 2. **前馈网络(Feed Forward Network)**:对每个 token 的嵌入(embedding)进行进一步的非线性转换,使模型能够提取更复杂的特征。
|
> 2. **前馈网络(Feed Forward Network)**:对每个 token 的嵌入(embedding)进行进一步的非线性转换,使模型能够提取更复杂的特征。
|
||||||
>
|
>
|
||||||
> 这两个部分都在**层归一化(Layer Normalization)**和**快捷连接(Shortcut Connections)**的配合下工作。
|
> 这两个部分都在层归一化(Layer Normalization)和快捷连接(Shortcut Connections)的配合下工作。
|
||||||
>
|
>
|
||||||
> 假设我们正在训练一个 LLM ,并希望它理解下面的句子:
|
> 假设我们正在训练一个 LLM ,并希望它理解下面的句子:
|
||||||
>
|
>
|
||||||
|
|
@ -654,7 +654,7 @@ layers.4.0.weight has gradient mean of 1.3258541822433472
|
||||||
>
|
>
|
||||||
> 加入快捷连接后,信息可以在层与层之间**直接跳跃**。例如,假设在第 n 层,我们有输入 X<sub>n</sub>,经过注意力和前馈网络得到输出F(X<sub>n</sub>)。加入快捷连接后,这一层的输出可以表示为:
|
> 加入快捷连接后,信息可以在层与层之间**直接跳跃**。例如,假设在第 n 层,我们有输入 X<sub>n</sub>,经过注意力和前馈网络得到输出F(X<sub>n</sub>)。加入快捷连接后,这一层的输出可以表示为:
|
||||||
>
|
>
|
||||||
> <center>$$\text { 输出 }=X_{n}+F\left(X_{n}\right)$$</center>
|
> $$ \text { 输出 }=X_{n}+F\left(X_{n}\right) g$$
|
||||||
>
|
>
|
||||||
> 这意味着第 n 层的输出不仅包含了这一层的新信息 F(X<sub>n</sub>,还保留了原始输入 X<sub>n </sub>的信息。下面是这样做的好处:
|
> 这意味着第 n 层的输出不仅包含了这一层的新信息 F(X<sub>n</sub>,还保留了原始输入 X<sub>n </sub>的信息。下面是这样做的好处:
|
||||||
>
|
>
|
||||||
|
|
|
||||||
Loading…
Reference in New Issue