add fourth chapter

2024-11-05 17:15:09 +08:00 · 2024-11-05 17:15:09 +08:00 · 30870ccce0
parent d7103fc230
commit 30870ccce0
1 changed files with 54 additions and 42 deletions
--- a/cn-Book/4.从零开始实现一个用于文本生成的
+++ b/cn-Book/4.从零开始实现一个用于文本生成的
@ -6,6 +6,18 @@
 + **通过实现 Transformer 模块来构建不同规模的 GPT 模型**
 + **计算 GPT 模型的参数数量和存储需求**
 -----
 - [4.1 实现 LLM 的架构](#41-实现-llm-的架构)
 - [4.2 使用层归一化对激活值进行标准化](#42-使用层归一化对激活值进行标准化)
 - [4.3 实现带有 GELU 激活函数的前馈神经网络](#43-实现带有-gelu-激活函数的前馈神经网络)
 - [4.4 添加快捷连接](#44-添加快捷连接)
 - [4.5 在 Transformer 模块中连接注意力层与线性层](#45-在-transformer-模块中连接注意力层与线性层)
 - [4.6 实现 GPT 模型](#46-实现-gpt-模型)
 - [4.7 生成文本](#47-生成文本)
 - [4.8 总结](#48-总结)
 -----
 在上一章中，我们学习并实现了多头注意力机制，这是大语言模型（LLM）的核心组件之一。本章将进一步实现 LLM 的其他组件，并将它们组装成一个与 GPT 类似结构的模型。我们将在下一章中训练该模型，以生成类人文本，具体过程如图 4.1 所示。