From 18bdb7ec01d30df59a963b004fef6cd74d4092d7 Mon Sep 17 00:00:00 2001 From: yuhui <173983476@qq.com> Date: Wed, 9 Apr 2025 23:11:22 +0800 Subject: [PATCH] =?UTF-8?q?Update=205.=E5=9C=A8=E6=97=A0=E6=A0=87=E8=AE=B0?= =?UTF-8?q?=E6=95=B0=E6=8D=AE=E9=9B=86=E4=B8=8A=E8=BF=9B=E8=A1=8C=E9=A2=84?= =?UTF-8?q?=E8=AE=AD=E7=BB=83.md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- cn-Book/5.在无标记数据集上进行预训练.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/cn-Book/5.在无标记数据集上进行预训练.md b/cn-Book/5.在无标记数据集上进行预训练.md index 0dfe638..cdfe465 100644 --- a/cn-Book/5.在无标记数据集上进行预训练.md +++ b/cn-Book/5.在无标记数据集上进行预训练.md @@ -1247,7 +1247,7 @@ Settings: {'n_vocab': 50257, 'n_ctx': 1024, 'n_embd': 768, 'n_head': 12, 'n_laye Parameter dictionary keys: dict_keys(['blocks', 'b', 'g', 'wpe', 'wte']) ``` -settings` 和 `params` 都是 Python 字典。`settings` 字典存储了 LLM 的架构设置,与我们之前手动定义的 `GPT_CONFIG_124M` 设置类似;`params` 字典则包含实际的权重张量。注意,我们只打印了字典的键,因为打印整个权重内容会占用太多屏幕空间。不过,我们可以通过`print(params)` 打印整个字典,或使用特定的字典键选择对应张量进行查看,例如嵌入层的权重: +`settings` 和 `params` 都是 Python 字典。`settings` 字典存储了 LLM 的架构设置,与我们之前手动定义的 `GPT_CONFIG_124M` 设置类似;`params` 字典则包含实际的权重张量。注意,我们只打印了字典的键,因为打印整个权重内容会占用太多屏幕空间。不过,我们可以通过`print(params)` 打印整个字典,或使用特定的字典键选择对应张量进行查看,例如嵌入层的权重: ```python print(params["wte"]) @@ -1447,4 +1447,4 @@ What makes us want to be on top of that? + 训练集和验证集的损失可以用来评估 LLM 在训练过程中生成文本的质量。 + 预训练 LLM 的过程就是通过调整模型权重来最小化训练损失。 + LLM 的训练循环是深度学习中的标准流程,通常使用交叉熵损失和 AdamW 优化器。 -+ 在大规模文本数据集上预训练 LLM 非常耗费时间和资源,因此可以加载 OpenAI 提供的开源预训练权重,作为自行预训练模型的替代方案。 \ No newline at end of file ++ 在大规模文本数据集上预训练 LLM 非常耗费时间和资源,因此可以加载 OpenAI 提供的开源预训练权重,作为自行预训练模型的替代方案。