add first chapter

This commit is contained in:
skindhu 2024-10-24 10:55:14 +08:00
parent 5bf6ac6613
commit ec830aab3d
1 changed files with 15 additions and 13 deletions

View File

@ -126,9 +126,11 @@ GPT 模型主要是为文本补全任务设计和训练的,但它们在能力
<img src="../Image/figure1.6.png" style="zoom:45%;" />
<!-- TRANSFORMERS 与 LLM
如今的 LLM 大部分是基于上一节提到的 Transformer 架构来实现。因此在文献中Transformers 和 LLMs 常常被视为同义词。然而,值得注意的是,并非所有的 Transformers 都是 LLM因为它们也可以用于计算机视觉。同时并非所有的 LLM 都是基于 Transformers 的,市场上也有一些基于递归和卷积架构的大语言模型。这些替代方法的主要目的是提高 LLM 的计算效率。不过,这些替代架构能否与基于 Transformer 的 LLM 的能力相竞争以及它们是否会在实际中得到应用还需要进一步观察。为了简单起见本书将“LLM”一词用来指代类似于 GPT 的基于 Transformer 的 LLM。感兴趣的读者可以在本章末尾的进一步阅读部分找到相关文献。-->
> [!NOTE]
>
> **TRANSFORMERS 与 LLM**
>
> 如今的 LLM 大部分是基于上一节提到的 Transformer 架构来实现。因此在文献中Transformers 和 LLMs 常常被视为同义词。然而,值得注意的是,并非所有的 Transformers 都是 LLM因为它们也可以用于计算机视觉。同时并非所有的 LLM 都是基于 Transformers 的,市场上也有一些基于递归和卷积架构的大语言模型。这些替代方法的主要目的是提高 LLM 的计算效率。不过,这些替代架构能否与基于 Transformer 的 LLM 的能力相竞争以及它们是否会在实际中得到应用还需要进一步观察。为了简单起见本书将“LLM”一词用来指代类似于 GPT 的基于 Transformer 的 LLM。感兴趣的读者可以在本章末尾的进一步阅读部分找到相关文献。-->
@ -140,15 +142,15 @@ GPT 模型主要是为文本补全任务设计和训练的,但它们在能力
通过表1.1能得出的主要结论是,这个训练数据集的规模和多样性使得这些模型在各种任务中表现优异,包括语言的语法、语义和上下文,甚至还可以处理一些需要通用知识的任务。
```
GPT-3 数据集细节
表 1.1 展示了用于 GPT-3 的数据集。表中的占比列(最后一列)总和为 100%经过四舍五入误差调整。尽管“token数量”这一列中的总计达到 5090 亿,但模型实际只在 3000 亿个token上进行训练。GPT-3 论文的作者没有解释为何模型没有在所有 5090 亿个token上进行训练。
对于上下文来说,考虑 CommonCrawl 数据集的规模,该数据集单独包含 4100 亿个token存储需要大约 570 GB。相比之下像 GPT-3 这样的模型后续版本,例如 Meta 的 LLaMA已经扩展了其训练范围加入了额外的数据来源比如 Arxiv 的研究论文92 GB和 StackExchange 的代码相关问答78 GB
GPT-3 论文的作者没有公开训练数据集,但有一个与其相当的公开数据集名为 Dolma由 Soldaini 等人在 2024 年发布的《用于 LLM 预训练研究的三万亿token开放语料库》https://arxiv.org/abs/2402.00159)。不过,该数据集可能包括受版权保护的作品,其具体使用条款可能会根据预期的使用场景和国家有所不同。
```
> [!NOTE]
>
> **GPT-3 数据集细节**
>
> 表 1.1 展示了用于 GPT-3 的数据集。表中的占比列(最后一列)总和为 100%经过四舍五入误差调整。尽管“token数量”这一列中的总计达到 5090 亿,但模型实际只在 3000 亿个token上进行训练。GPT-3 论文的作者没有解释为何模型没有在所有 5090 亿个token上进行训练。
>
> 对于上下文来说,考虑 CommonCrawl 数据集的规模,该数据集单独包含 4100 亿个token存储需要大约 570 GB。相比之下像 GPT-3 这样的模型后续版本,例如 Meta 的 LLaMA已经扩展了其训练范围加入了额外的数据来源比如 Arxiv 的研究论文92 GB和 StackExchange 的代码相关问答78 GB
>
> GPT-3 论文的作者没有公开训练数据集,但有一个与其相当的公开数据集名为 Dolma由 Soldaini 等人在 2024 年发布的《用于 LLM 预训练研究的三万亿token开放语料库》https://arxiv.org/abs/2402.00159)。不过,该数据集可能包括受版权保护的作品,其具体使用条款可能会根据预期的使用场景和国家有所不同。
这些模型的预训练特性使它们在后续任务中的微调变得非常灵活,因此它们也被称为基础模型或基模。预训练 LLM 需要消耗大量资源且成本非常高。例如GPT-3 的预训练费用估计为 460 万美元,通过云计算积分来计算[^2]。
@ -188,7 +190,7 @@ GPT-3 于 2020 年推出按照深度学习和大语言模型LLM开发
在本章中我们为理解LLM打下了基础。在本书的其余部分我们将从零开始编码一个 LLM使用 GPT 的基本理念作为框架,并分为三个阶段进行,如图 1.9 所示。
<img src="../Image/figure1.9.png" width="80%" />
<img src="../Image/figure1.9.png" width="75%" />
首先,我们将学习基本的数据预处理步骤,并编写 LLM 核心的注意力机制代码。