From 1018d19c984c90a890158f155f403289e8b34f29 Mon Sep 17 00:00:00 2001
From: yuhui <173983476@qq.com>
Date: Mon, 7 Apr 2025 19:57:59 +0800
Subject: [PATCH] =?UTF-8?q?Update=204.=E4=BB=8E=E9=9B=B6=E5=BC=80=E5=A7=8B?=
 =?UTF-8?q?=E5=AE=9E=E7=8E=B0=E4=B8=80=E4=B8=AA=E7=94=A8=E4=BA=8E=E6=96=87?=
 =?UTF-8?q?=E6=9C=AC=E7=94=9F=E6=88=90=E7=9A=84=20GPT=20=E6=A8=A1=E5=9E=8B?=
 =?UTF-8?q?.md?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md b/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md
index 3e9c246..8839fca 100644
--- a/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md	
+++ b/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md	
@@ -69,7 +69,7 @@ GPT_CONFIG_124M = {
 + `emb_dim`表示嵌入维度，将每个 token 转换为 768 维的向量。
 + `n_layers`指定模型中 Transformer 模块的层数，后续章节将对此详解。
 + `drop_rate`表示 dropout 机制的强度（例如，0.1 表示丢弃 10% 的隐藏单元），用于防止过拟合，具体内容请回顾第 3 章。
-+ `qkv_bia 参数决定是否在多头注意力的查询、键和值的线性层中加入偏置向量。我们最初会禁用该选项，以遵循现代大语言模型的标准，之后在第 6 章加载 OpenAI 预训练的 GPT-2 权重时再重新考虑该设置。
++ `qkv_bias` 参数决定是否在多头注意力的查询、键和值的线性层中加入偏置向量。我们最初会禁用该选项，以遵循现代大语言模型的标准，之后在第 6 章加载 OpenAI 预训练的 GPT-2 权重时再重新考虑该设置。
 
 使用上述配置，我们将从本章开始实现一个GPT占位架构（DummyGPTModel），如图4.3所示。这将为我们提供一个全局视图，了解所有组件如何组合在一起，以及在接下来的章节中需要编写哪些其他组件来组装完整的GPT模型架构。