add fourth chapter

This commit is contained in:
skindhu 2024-11-05 17:15:09 +08:00
parent d7103fc230
commit 30870ccce0
1 changed files with 54 additions and 42 deletions

View File

@ -6,6 +6,18 @@
+ **通过实现 Transformer 模块来构建不同规模的 GPT 模型** + **通过实现 Transformer 模块来构建不同规模的 GPT 模型**
+ **计算 GPT 模型的参数数量和存储需求** + **计算 GPT 模型的参数数量和存储需求**
-----
- [4.1 实现 LLM 的架构](#41-实现-llm-的架构)
- [4.2 使用层归一化对激活值进行标准化](#42-使用层归一化对激活值进行标准化)
- [4.3 实现带有 GELU 激活函数的前馈神经网络](#43-实现带有-gelu-激活函数的前馈神经网络)
- [4.4 添加快捷连接](#44-添加快捷连接)
- [4.5 在 Transformer 模块中连接注意力层与线性层](#45-在-transformer-模块中连接注意力层与线性层)
- [4.6 实现 GPT 模型](#46-实现-gpt-模型)
- [4.7 生成文本](#47-生成文本)
- [4.8 总结](#48-总结)
-----
在上一章中我们学习并实现了多头注意力机制这是大语言模型LLM的核心组件之一。本章将进一步实现 LLM 的其他组件,并将它们组装成一个与 GPT 类似结构的模型。我们将在下一章中训练该模型,以生成类人文本,具体过程如图 4.1 所示。 在上一章中我们学习并实现了多头注意力机制这是大语言模型LLM的核心组件之一。本章将进一步实现 LLM 的其他组件,并将它们组装成一个与 GPT 类似结构的模型。我们将在下一章中训练该模型,以生成类人文本,具体过程如图 4.1 所示。