add fifth chapter

2024-11-07 15:35:23 +08:00 · 2024-11-07 15:35:23 +08:00 · 63e21c0bdf
parent 447a41c653
commit 63e21c0bdf
1 changed files with 1 additions and 0 deletions
--- a/cn-Book/5.在无标记数据集上进行预训练.md
+++ b/cn-Book/5.在无标记数据集上进行预训练.md
@ -268,6 +268,7 @@ tensor([ -9.5042, -10.3796, -11.3677, -11.4798, -9.7764, -12.2561])
 >
 >    虽然这个和也是负数，但它不会像直接相乘的结果那样接近于0，避免了数值下溢的问题。**对数的累加性质**允许我们将原本的累乘操作转换为累加，使得计算更加稳定和高效。
 >    
+>
 > 2. **归属概率在损失函数中的作用**
 >
 >    GPT模型训练的目标是最大化正确目标 token 的概率，通常，我们会使用交叉熵损失来衡量模型预测与实际目标之间的差异。对于一个目标 token 序列 $` y=(y1,y2,…,yn) `$，GPT会生成一个对应的预测概率分布 $` P(y∣x) `$，其中 x 是模型的输入。