add first chapter
This commit is contained in:
parent
bac5252afb
commit
63564b1d9c
|
|
@ -75,7 +75,7 @@ LLMs 还可以支持复杂的聊天机器人和虚拟助手,例如 OpenAI 的
|
|||
创建 LLM 的一般过程包括预训练和微调。术语 "pre" 在 "pretraining" 中指的是初始阶段,此时模型(如 LLM)在一个大型且多样化的数据集上进行训练,以便获得对语言的广泛理解。预训练模型随后作为基础资源,可以通过微调进一步优化。微调是指模型在一个更狭窄的数据集上进行专门训练,这个数据集更针对特定任务或领域。包含预训练和微调的这种两阶段训练方法在图 1.3 中进行了说明。
|
||||
|
||||
> [!TIP]
|
||||
|
||||
>
|
||||
> 思考:** 预训练的数据集已经学习好了语言模型的基础能力,包括语法、词汇、语言结构,可以相对准确的预测下一个token。而微调则是利用特定领域的数据来让模型适应某些特定的任务。
|
||||
>
|
||||
> + 微调默认情况下会调整所有权重,但由于权重已经经过预训练,大多数情况下,微调只会对预训练权重进行微小调整,而不是大幅度改变。这种方式能够让模型保持原有的语言生成能力,同时使其在特定任务上表现得更好。
|
||||
|
|
@ -182,7 +182,7 @@ GPT-3 于 2020 年推出,按照深度学习和大语言模型(LLM)开发
|
|||
|
||||
在本章中,我们为理解LLM打下了基础。在本书的其余部分,我们将从零开始编码一个 LLM,使用 GPT 的基本理念作为框架,并分为三个阶段进行,如图 1.9 所示。
|
||||
|
||||
<img src="../Image/figure1.9.png" style="zoom:50%;" />
|
||||
<img src="../Image/figure1.9.png" style="zoom:45%;" />
|
||||
|
||||
首先,我们将学习基本的数据预处理步骤,并编写 LLM 核心的注意力机制代码。
|
||||
|
||||
|
|
|
|||
Loading…
Reference in New Issue