From 1018d19c984c90a890158f155f403289e8b34f29 Mon Sep 17 00:00:00 2001 From: yuhui <173983476@qq.com> Date: Mon, 7 Apr 2025 19:57:59 +0800 Subject: [PATCH] =?UTF-8?q?Update=204.=E4=BB=8E=E9=9B=B6=E5=BC=80=E5=A7=8B?= =?UTF-8?q?=E5=AE=9E=E7=8E=B0=E4=B8=80=E4=B8=AA=E7=94=A8=E4=BA=8E=E6=96=87?= =?UTF-8?q?=E6=9C=AC=E7=94=9F=E6=88=90=E7=9A=84=20GPT=20=E6=A8=A1=E5=9E=8B?= =?UTF-8?q?.md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md b/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md index 3e9c246..8839fca 100644 --- a/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md +++ b/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md @@ -69,7 +69,7 @@ GPT_CONFIG_124M = { + `emb_dim`表示嵌入维度,将每个 token 转换为 768 维的向量。 + `n_layers`指定模型中 Transformer 模块的层数,后续章节将对此详解。 + `drop_rate`表示 dropout 机制的强度(例如,0.1 表示丢弃 10% 的隐藏单元),用于防止过拟合,具体内容请回顾第 3 章。 -+ `qkv_bia 参数决定是否在多头注意力的查询、键和值的线性层中加入偏置向量。我们最初会禁用该选项,以遵循现代大语言模型的标准,之后在第 6 章加载 OpenAI 预训练的 GPT-2 权重时再重新考虑该设置。 ++ `qkv_bias` 参数决定是否在多头注意力的查询、键和值的线性层中加入偏置向量。我们最初会禁用该选项,以遵循现代大语言模型的标准,之后在第 6 章加载 OpenAI 预训练的 GPT-2 权重时再重新考虑该设置。 使用上述配置,我们将从本章开始实现一个GPT占位架构(DummyGPTModel),如图4.3所示。这将为我们提供一个全局视图,了解所有组件如何组合在一起,以及在接下来的章节中需要编写哪些其他组件来组装完整的GPT模型架构。