add first chapter

This commit is contained in:
skindhu 2024-10-24 09:47:13 +08:00
parent 290ba4d036
commit 8077019e3b
3 changed files with 27 additions and 3 deletions

View File

@ -34,7 +34,7 @@ LLMs 采用了一种称为 transformer 的架构(在第 1.4 节中将详细讨
由于 LLMs 能够生成文本,因此它们通常被称为一种生成式人工智能 (AI),常缩写为生成 AI 或 GenAI。如图 1.1 所示,人工智能涵盖了创造能执行类似人类智能任务的更广泛领域,包括理解语言、识别模式和做出决策,并包括机器学习和深度学习等子领域。
<img src="../Image/figure11.png" style="zoom:100%;" />
<img src="../Image/figure1.1.png" style="zoom:100%;" />
用于实现人工智能的算法是机器学习领域的核心。机器学习具体涉及开发可以从数据中学习并基于数据做出预测或决策的算法,而不需要明确的编程。举例来说,垃圾邮件过滤器就是机器学习的一个实际应用。与其手动编写规则来识别垃圾邮件,不如将标记为垃圾邮件和合法邮件的电子邮件示例输入给机器学习算法。通过最小化训练数据集上的预测误差,模型能够学习识别垃圾邮件的模式和特征,从而将新邮件分类为垃圾邮件或合法邮件。
@ -176,6 +176,30 @@ GPT-3 于 2020 年推出按照深度学习和大语言模型LLM开发
## 1.7 构建大语言模型
在本章中我们为理解LLM打下了基础。在本书的其余部分我们将从零开始编码一个 LLM使用 GPT 的基本理念作为框架,并分为三个阶段进行,如图 1.9 所示。
<img src="../Image/figure1.9.png" style="zoom:70%;" />
首先,我们将学习基本的数据预处理步骤,并编写 LLM 核心的注意力机制代码。
接下来,在第二阶段,我们将学习如何编写代码并预训练一个类似 GPT 的 LLM能够生成新的文本。同时我们还会介绍评估 LLM 的基本原理,这对开发强大的 NLP自然语言处理系统至关重要。
请注意,从头开始预训练一个 LLM 是一项庞大的工程,对于类似 GPT 的模型,计算成本可能高达数千到数百万美元。因此,第二阶段的重点是进行教学目的的训练,使用小型数据集。此外,本书还将提供关于如何加载公开可用的模型权重的代码示例。
最后,在第 3 阶段,我们将使用一个预训练好的 LLM对其进行微调使其能够执行指令例如回答查询或进行文本分类——这些是在许多现实世界应用和研究中最常见的任务。
希望你能期待踏上这段激动人心的旅程!
## 1.8 本章总结

View File

Before

Width:  |  Height:  |  Size: 1.9 MiB

After

Width:  |  Height:  |  Size: 1.9 MiB

BIN
Image/figure1.9.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 1.3 MiB