Update 5.在无标记数据集上进行预训练.md

2025-04-09 23:11:22 +08:00 · 2025-04-09 23:11:22 +08:00 · 18bdb7ec01
parent 60bbaa8712
commit 18bdb7ec01
1 changed files with 2 additions and 2 deletions
--- a/cn-Book/5.在无标记数据集上进行预训练.md
+++ b/cn-Book/5.在无标记数据集上进行预训练.md
@ -1247,7 +1247,7 @@ Settings: {'n_vocab': 50257, 'n_ctx': 1024, 'n_embd': 768, 'n_head': 12, 'n_laye
 Parameter dictionary keys: dict_keys(['blocks', 'b', 'g', 'wpe', 'wte'])
 ```

-settings` 和 `params` 都是 Python 字典。`settings` 字典存储了 LLM 的架构设置，与我们之前手动定义的 `GPT_CONFIG_124M` 设置类似；`params` 字典则包含实际的权重张量。注意，我们只打印了字典的键，因为打印整个权重内容会占用太多屏幕空间。不过，我们可以通过`print(params)` 打印整个字典，或使用特定的字典键选择对应张量进行查看，例如嵌入层的权重：
+`settings` 和 `params` 都是 Python 字典。`settings` 字典存储了 LLM 的架构设置，与我们之前手动定义的 `GPT_CONFIG_124M` 设置类似；`params` 字典则包含实际的权重张量。注意，我们只打印了字典的键，因为打印整个权重内容会占用太多屏幕空间。不过，我们可以通过`print(params)` 打印整个字典，或使用特定的字典键选择对应张量进行查看，例如嵌入层的权重：

 ```python
 print(params["wte"])
@ -1447,4 +1447,4 @@ What makes us want to be on top of that?
 + 训练集和验证集的损失可以用来评估 LLM 在训练过程中生成文本的质量。
 + 预训练 LLM 的过程就是通过调整模型权重来最小化训练损失。
 + LLM 的训练循环是深度学习中的标准流程，通常使用交叉熵损失和 AdamW 优化器。
-+ 在大规模文本数据集上预训练 LLM 非常耗费时间和资源，因此可以加载 OpenAI 提供的开源预训练权重，作为自行预训练模型的替代方案。
+ 在大规模文本数据集上预训练 LLM 非常耗费时间和资源，因此可以加载 OpenAI 提供的开源预训练权重，作为自行预训练模型的替代方案。