add fourth chapter
This commit is contained in:
parent
d7103fc230
commit
30870ccce0
|
|
@ -6,6 +6,18 @@
|
|||
+ **通过实现 Transformer 模块来构建不同规模的 GPT 模型**
|
||||
+ **计算 GPT 模型的参数数量和存储需求**
|
||||
|
||||
-----
|
||||
|
||||
- [4.1 实现 LLM 的架构](#41-实现-llm-的架构)
|
||||
- [4.2 使用层归一化对激活值进行标准化](#42-使用层归一化对激活值进行标准化)
|
||||
- [4.3 实现带有 GELU 激活函数的前馈神经网络](#43-实现带有-gelu-激活函数的前馈神经网络)
|
||||
- [4.4 添加快捷连接](#44-添加快捷连接)
|
||||
- [4.5 在 Transformer 模块中连接注意力层与线性层](#45-在-transformer-模块中连接注意力层与线性层)
|
||||
- [4.6 实现 GPT 模型](#46-实现-gpt-模型)
|
||||
- [4.7 生成文本](#47-生成文本)
|
||||
- [4.8 总结](#48-总结)
|
||||
|
||||
-----
|
||||
|
||||
|
||||
在上一章中,我们学习并实现了多头注意力机制,这是大语言模型(LLM)的核心组件之一。本章将进一步实现 LLM 的其他组件,并将它们组装成一个与 GPT 类似结构的模型。我们将在下一章中训练该模型,以生成类人文本,具体过程如图 4.1 所示。
|
||||
|
|
|
|||
Loading…
Reference in New Issue