From a75c95c3145f0f920af8fb499ca752d8d9f5d439 Mon Sep 17 00:00:00 2001 From: skindhu Date: Thu, 24 Oct 2024 10:33:32 +0800 Subject: [PATCH] add first chapter --- Book/1.理解大语言模型.md | 7 +++---- 1 file changed, 3 insertions(+), 4 deletions(-) diff --git a/Book/1.理解大语言模型.md b/Book/1.理解大语言模型.md index 8b4f904..6312ba3 100644 --- a/Book/1.理解大语言模型.md +++ b/Book/1.理解大语言模型.md @@ -180,7 +180,7 @@ GPT-3 于 2020 年推出,按照深度学习和大语言模型(LLM)开发 在本章中,我们为理解LLM打下了基础。在本书的其余部分,我们将从零开始编码一个 LLM,使用 GPT 的基本理念作为框架,并分为三个阶段进行,如图 1.9 所示。 - + 首先,我们将学习基本的数据预处理步骤,并编写 LLM 核心的注意力机制代码。 @@ -210,9 +210,8 @@ GPT-3 于 2020 年推出,按照深度学习和大语言模型(LLM)开发 -[^1] 拥有机器学习背景的读者可能会注意到,传统机器学习模型和通过常规监督学习训练的深度神经网络通常需要标注数据。但在 LLM 的预训练阶段情况并非如此。在这一阶段,LLM 采用自监督学习,模型可以从输入数据中自动生成标签。这个概念将在本章后面的内容中进一步讨论。 - -[^2] GPT-3,价值 4,600,000 美元的语言模型,https://www.reddit.com/r/MachineLearning/comments/h0jwoz/d_gpt3_the_4600000_language_model/ +[^1]: 拥有机器学习背景的读者可能会注意到,传统机器学习模型和通过常规监督学习训练的深度神经网络通常需要标注数据。但在 LLM 的预训练阶段情况并非如此。在这一阶段,LLM 采用自监督学习,模型可以从输入数据中自动生成标签。这个概念将在本章后面的内容中进一步讨论。 +[^2]: GPT-3,价值 4,600,000 美元的语言模型,https://www.reddit.com/r/MachineLearning/comments/h0jwoz/d_gpt3_the_4600000_language_model/