add fourth chapter

2024-11-04 19:46:42 +08:00 · 2024-11-04 19:46:42 +08:00 · 09726aadb7
parent 20f3c0c7f8
commit 09726aadb7
1 changed files with 3 additions and 3 deletions
--- a/cn-Book/4.从零开始实现一个用于文本生成的
+++ b/cn-Book/4.从零开始实现一个用于文本生成的
@ -654,7 +654,7 @@ layers.4.0.weight has gradient mean of 1.3258541822433472
 >
 >    加入快捷连接后，信息可以在层与层之间**直接跳跃**。例如，假设在第 n 层，我们有输入 X<sub>n</sub>，经过注意力和前馈网络得到输出F(X<sub>n</sub>)。加入快捷连接后，这一层的输出可以表示为：
 >
->    $$ \text { 输出 }=X_{n}+F\left(X_{n}\right) $$
+>    												$$\text { 输出 }=X_{n}+F\left(X_{n}\right)$$
 >
 >    这意味着第 n 层的输出不仅包含了这一层的新信息 F(X<sub>n</sub>，还保留了原始输入 X<sub>n </sub>的信息。下面是这样做的好处：
 >
@ -674,7 +674,7 @@ layers.4.0.weight has gradient mean of 1.3258541822433472
 >
 >      - **有快捷连接**时，假设我们在每一层之间都添加快捷连接，梯度的传播路径就多了一条直接路径：
 >
->        $$\frac{\partial L}{\partial X_{1}}=\frac{\partial L}{\partial\left(X_{1}+F\left(X_{1}\right)\right)} \cdot\left(1+\frac{\partial F\left(X_{1}\right)}{\partial X_{1}}\right)$$
+>        									$$\frac{\partial L}{\partial X_{1}}=\frac{\partial L}{\partial\left(X_{1}+F\left(X_{1}\right)\right)} \cdot\left(1+\frac{\partial F\left(X_{1}\right)}{\partial X_{1}}\right)$$
 >
 >        这样，即使 $` \frac{\partial F\left(X_{1}\right)}{\partial X_{1}} `$ 很小，梯度依然可以通过 111 这条路径直接传递到更前面的层。