Update 4.从零开始实现一个用于文本生成的 GPT 模型.md
This commit is contained in:
parent
60bbaa8712
commit
1018d19c98
|
|
@ -69,7 +69,7 @@ GPT_CONFIG_124M = {
|
|||
+ `emb_dim`表示嵌入维度,将每个 token 转换为 768 维的向量。
|
||||
+ `n_layers`指定模型中 Transformer 模块的层数,后续章节将对此详解。
|
||||
+ `drop_rate`表示 dropout 机制的强度(例如,0.1 表示丢弃 10% 的隐藏单元),用于防止过拟合,具体内容请回顾第 3 章。
|
||||
+ `qkv_bia 参数决定是否在多头注意力的查询、键和值的线性层中加入偏置向量。我们最初会禁用该选项,以遵循现代大语言模型的标准,之后在第 6 章加载 OpenAI 预训练的 GPT-2 权重时再重新考虑该设置。
|
||||
+ `qkv_bias` 参数决定是否在多头注意力的查询、键和值的线性层中加入偏置向量。我们最初会禁用该选项,以遵循现代大语言模型的标准,之后在第 6 章加载 OpenAI 预训练的 GPT-2 权重时再重新考虑该设置。
|
||||
|
||||
使用上述配置,我们将从本章开始实现一个GPT占位架构(DummyGPTModel),如图4.3所示。这将为我们提供一个全局视图,了解所有组件如何组合在一起,以及在接下来的章节中需要编写哪些其他组件来组装完整的GPT模型架构。
|
||||
|
||||
|
|
|
|||
Loading…
Reference in New Issue