From 70cfd9316cc4ef8058a7ff175f6830f482dc1a79 Mon Sep 17 00:00:00 2001 From: skindhu Date: Mon, 4 Nov 2024 19:56:36 +0800 Subject: [PATCH] add fourth chapter --- cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md b/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md index 85eaabc..a38f823 100644 --- a/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md +++ b/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md @@ -654,7 +654,7 @@ layers.4.0.weight has gradient mean of 1.3258541822433472 > > 加入快捷连接后,信息可以在层与层之间**直接跳跃**。例如,假设在第 n 层,我们有输入 Xn,经过注意力和前馈网络得到输出F(Xn)。加入快捷连接后,这一层的输出可以表示为: > -> g$$ \text { 输出 }=X_{n}+F\left(X_{n}\right) $$ +> $$ \text { 输出 }=X_{n}+F\left(X_{n}\right) $$ > > 这意味着第 n 层的输出不仅包含了这一层的新信息 F(Xn),还保留了原始输入 X的信息。下面是这样做的好处: >