Update 4.从零开始实现一个用于文本生成的 GPT 模型.md

This commit is contained in:
yuhui 2025-04-07 19:57:59 +08:00 committed by GitHub
parent 60bbaa8712
commit 1018d19c98
No known key found for this signature in database
GPG Key ID: B5690EEEBB952194
1 changed files with 1 additions and 1 deletions

View File

@ -69,7 +69,7 @@ GPT_CONFIG_124M = {
+ `emb_dim`表示嵌入维度,将每个 token 转换为 768 维的向量。
+ `n_layers`指定模型中 Transformer 模块的层数,后续章节将对此详解。
+ `drop_rate`表示 dropout 机制的强度例如0.1 表示丢弃 10% 的隐藏单元),用于防止过拟合,具体内容请回顾第 3 章。
+ `qkv_bia 参数决定是否在多头注意力的查询、键和值的线性层中加入偏置向量。我们最初会禁用该选项,以遵循现代大语言模型的标准,之后在第 6 章加载 OpenAI 预训练的 GPT-2 权重时再重新考虑该设置。
+ `qkv_bias` 参数决定是否在多头注意力的查询、键和值的线性层中加入偏置向量。我们最初会禁用该选项,以遵循现代大语言模型的标准,之后在第 6 章加载 OpenAI 预训练的 GPT-2 权重时再重新考虑该设置。
使用上述配置我们将从本章开始实现一个GPT占位架构DummyGPTModel如图4.3所示。这将为我们提供一个全局视图了解所有组件如何组合在一起以及在接下来的章节中需要编写哪些其他组件来组装完整的GPT模型架构。