From f8b4defb7582ce25c81738ba6c0df239db6b673d Mon Sep 17 00:00:00 2001 From: skindhu Date: Mon, 4 Nov 2024 19:49:10 +0800 Subject: [PATCH] add fourth chapter --- cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md b/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md index 0898e34..15d7f33 100644 --- a/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md +++ b/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md @@ -654,7 +654,7 @@ layers.4.0.weight has gradient mean of 1.3258541822433472 > > 加入快捷连接后,信息可以在层与层之间**直接跳跃**。例如,假设在第 n 层,我们有输入 Xn,经过注意力和前馈网络得到输出F(Xn)。加入快捷连接后,这一层的输出可以表示为: > -> ​ $$\text { 输出 }=X_{n}+F\left(X_{n}\right)$$ +> ​ $$\text { 输出 }=X_{n}+F\left(X_{n}\right)$$ > > 这意味着第 n 层的输出不仅包含了这一层的新信息 F(Xn,还保留了原始输入 X的信息。下面是这样做的好处: > @@ -668,13 +668,13 @@ layers.4.0.weight has gradient mean of 1.3258541822433472 > > - 根据反向传播的原理,**无快捷连接**时,梯度必须逐层传递,如下: > -> $$\frac{\partial L}{\partial X_{1}}=\frac{\partial L}{\partial X_{3}} \cdot \frac{\partial X_{3}}{\partial X_{2}} \cdot \frac{\partial X_{2}}{\partial X_{1}}$$ +> $$\frac{\partial L}{\partial X_{1}}=\frac{\partial L}{\partial X_{3}} \cdot \frac{\partial X_{3}}{\partial X_{2}} \cdot \frac{\partial X_{2}}{\partial X_{1}}$$ > > 这里,如果某一层的梯度值很小,那么梯度会被逐层缩小,导致梯度消失。 > > - **有快捷连接**时,假设我们在每一层之间都添加快捷连接,梯度的传播路径就多了一条直接路径: > -> ​ $$\frac{\partial L}{\partial X_{1}}=\frac{\partial L}{\partial\left(X_{1}+F\left(X_{1}\right)\right)} \cdot\left(1+\frac{\partial F\left(X_{1}\right)}{\partial X_{1}}\right)$$ +> $$\frac{\partial L}{\partial X_{1}}=\frac{\partial L}{\partial\left(X_{1}+F\left(X_{1}\right)\right)} \cdot\left(1+\frac{\partial F\left(X_{1}\right)}{\partial X_{1}}\right)$$ > > 这样,即使 $` \frac{\partial F\left(X_{1}\right)}{\partial X_{1}} `$ 很小,梯度依然可以通过 111 这条路径直接传递到更前面的层。