Update 4.从零开始实现一个用于文本生成的 GPT 模型.md

2025-04-07 19:57:59 +08:00 · 2025-04-07 19:57:59 +08:00 · 1018d19c98
parent 60bbaa8712
commit 1018d19c98
1 changed files with 1 additions and 1 deletions
--- a/cn-Book/4.从零开始实现一个用于文本生成的
+++ b/cn-Book/4.从零开始实现一个用于文本生成的
@ -69,7 +69,7 @@ GPT_CONFIG_124M = {
 + `emb_dim`表示嵌入维度，将每个 token 转换为 768 维的向量。
 + `n_layers`指定模型中 Transformer 模块的层数，后续章节将对此详解。
 + `drop_rate`表示 dropout 机制的强度（例如，0.1 表示丢弃 10% 的隐藏单元），用于防止过拟合，具体内容请回顾第 3 章。
-+ `qkv_bia 参数决定是否在多头注意力的查询、键和值的线性层中加入偏置向量。我们最初会禁用该选项，以遵循现代大语言模型的标准，之后在第 6 章加载 OpenAI 预训练的 GPT-2 权重时再重新考虑该设置。
+ `qkv_bias` 参数决定是否在多头注意力的查询、键和值的线性层中加入偏置向量。我们最初会禁用该选项，以遵循现代大语言模型的标准，之后在第 6 章加载 OpenAI 预训练的 GPT-2 权重时再重新考虑该设置。

 使用上述配置，我们将从本章开始实现一个GPT占位架构（DummyGPTModel），如图4.3所示。这将为我们提供一个全局视图，了解所有组件如何组合在一起，以及在接下来的章节中需要编写哪些其他组件来组装完整的GPT模型架构。