add first chapter

2024-10-24 10:33:32 +08:00 · 2024-10-24 10:33:32 +08:00 · a75c95c314
parent 3caedb52f7
commit a75c95c314
1 changed files with 3 additions and 4 deletions
--- a/Book/1.理解大语言模型.md
+++ b/Book/1.理解大语言模型.md
@ -180,7 +180,7 @@ GPT-3 于 2020 年推出，按照深度学习和大语言模型（LLM）开发

 在本章中，我们为理解LLM打下了基础。在本书的其余部分，我们将从零开始编码一个 LLM，使用 GPT 的基本理念作为框架，并分为三个阶段进行，如图 1.9 所示。

-<img src="../Image/figure1.9.png" style="zoom:60%;" />
+<img src="../Image/figure1.9.png" style="zoom:55%;" />

 首先，我们将学习基本的数据预处理步骤，并编写 LLM 核心的注意力机制代码。

@ -210,9 +210,8 @@ GPT-3 于 2020 年推出，按照深度学习和大语言模型（LLM）开发



-[^1] 拥有机器学习背景的读者可能会注意到，传统机器学习模型和通过常规监督学习训练的深度神经网络通常需要标注数据。但在 LLM 的预训练阶段情况并非如此。在这一阶段，LLM 采用自监督学习，模型可以从输入数据中自动生成标签。这个概念将在本章后面的内容中进一步讨论。
-
-[^2] GPT-3，价值 4,600,000 美元的语言模型，https://www.reddit.com/r/MachineLearning/comments/h0jwoz/d_gpt3_the_4600000_language_model/
+[^1]:  拥有机器学习背景的读者可能会注意到，传统机器学习模型和通过常规监督学习训练的深度神经网络通常需要标注数据。但在 LLM 的预训练阶段情况并非如此。在这一阶段，LLM 采用自监督学习，模型可以从输入数据中自动生成标签。这个概念将在本章后面的内容中进一步讨论。
+[^2]:  GPT-3，价值 4,600,000 美元的语言模型，https://www.reddit.com/r/MachineLearning/comments/h0jwoz/d_gpt3_the_4600000_language_model/