diff --git a/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md b/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md
index ba62e94..e3d5e77 100644
--- a/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md	
+++ b/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md	
@@ -633,7 +633,7 @@ layers.4.0.weight has gradient mean of 1.3258541822433472
 > 1. **自注意力层（Self-Attention Layer）**：计算每个 token 与其他 token 的关联，帮助模型理解上下文。
 > 2. **前馈网络（Feed Forward Network）**：对每个 token 的嵌入（embedding）进行进一步的非线性转换，使模型能够提取更复杂的特征。
 >
-> 这两个部分都在**层归一化（Layer Normalization）**和**快捷连接（Shortcut Connections）**的配合下工作。
+> 这两个部分都在层归一化（Layer Normalization）和快捷连接（Shortcut Connections）的配合下工作。
 >
 > 假设我们正在训练一个 LLM ，并希望它理解下面的句子：
 >
@@ -654,7 +654,7 @@ layers.4.0.weight has gradient mean of 1.3258541822433472
 >
 >    加入快捷连接后，信息可以在层与层之间**直接跳跃**。例如，假设在第 n 层，我们有输入 X<sub>n</sub>，经过注意力和前馈网络得到输出F(X<sub>n</sub>)。加入快捷连接后，这一层的输出可以表示为：
 >
->    <center>$$\text { 输出 }=X_{n}+F\left(X_{n}\right)$$</center>
+>    $$ \text { 输出 }=X_{n}+F\left(X_{n}\right) g$$
 >
 >    这意味着第 n 层的输出不仅包含了这一层的新信息 F(X<sub>n</sub>，还保留了原始输入 X<sub>n </sub>的信息。下面是这样做的好处：
 >