add fourth chapter
This commit is contained in:
parent
f8b4defb75
commit
ffec70e381
|
|
@ -654,7 +654,7 @@ layers.4.0.weight has gradient mean of 1.3258541822433472
|
|||
>
|
||||
> 加入快捷连接后,信息可以在层与层之间**直接跳跃**。例如,假设在第 n 层,我们有输入 X<sub>n</sub>,经过注意力和前馈网络得到输出F(X<sub>n</sub>)。加入快捷连接后,这一层的输出可以表示为:
|
||||
>
|
||||
> $$\text { 输出 }=X_{n}+F\left(X_{n}\right)$$
|
||||
> <center>$$\text { 输出 }=X_{n}+F\left(X_{n}\right)$$</center>
|
||||
>
|
||||
> 这意味着第 n 层的输出不仅包含了这一层的新信息 F(X<sub>n</sub>,还保留了原始输入 X<sub>n </sub>的信息。下面是这样做的好处:
|
||||
>
|
||||
|
|
@ -670,7 +670,7 @@ layers.4.0.weight has gradient mean of 1.3258541822433472
|
|||
>
|
||||
> $$\frac{\partial L}{\partial X_{1}}=\frac{\partial L}{\partial X_{3}} \cdot \frac{\partial X_{3}}{\partial X_{2}} \cdot \frac{\partial X_{2}}{\partial X_{1}}$$
|
||||
>
|
||||
> 这里,如果某一层的梯度值很小,那么梯度会被逐层缩小,导致梯度消失。
|
||||
> 这里g,如果某一层的梯度值很小,那么梯度会被逐层缩小,导致梯度消失。
|
||||
>
|
||||
> - **有快捷连接**时,假设我们在每一层之间都添加快捷连接,梯度的传播路径就多了一条直接路径:
|
||||
>
|
||||
|
|
|
|||
Loading…
Reference in New Issue