add fifth chapter

This commit is contained in:
skindhu 2024-11-07 15:35:23 +08:00
parent 447a41c653
commit 63e21c0bdf
1 changed files with 1 additions and 0 deletions

View File

@ -268,6 +268,7 @@ tensor([ -9.5042, -10.3796, -11.3677, -11.4798, -9.7764, -12.2561])
>
> 虽然这个和也是负数但它不会像直接相乘的结果那样接近于0避免了数值下溢的问题。**对数的累加性质**允许我们将原本的累乘操作转换为累加,使得计算更加稳定和高效。
>
>
> 2. **归属概率在损失函数中的作用**
>
> GPT模型训练的目标是最大化正确目标 token 的概率,通常,我们会使用交叉熵损失来衡量模型预测与实际目标之间的差异。对于一个目标 token 序列 $` y=(y1,y2,…,yn) `$GPT会生成一个对应的预测概率分布 $` P(yx) `$,其中 x 是模型的输入。