add fifth chapter
This commit is contained in:
parent
447a41c653
commit
63e21c0bdf
|
|
@ -268,6 +268,7 @@ tensor([ -9.5042, -10.3796, -11.3677, -11.4798, -9.7764, -12.2561])
|
|||
>
|
||||
> 虽然这个和也是负数,但它不会像直接相乘的结果那样接近于0,避免了数值下溢的问题。**对数的累加性质**允许我们将原本的累乘操作转换为累加,使得计算更加稳定和高效。
|
||||
>
|
||||
>
|
||||
> 2. **归属概率在损失函数中的作用**
|
||||
>
|
||||
> GPT模型训练的目标是最大化正确目标 token 的概率,通常,我们会使用交叉熵损失来衡量模型预测与实际目标之间的差异。对于一个目标 token 序列 $` y=(y1,y2,…,yn) `$,GPT会生成一个对应的预测概率分布 $` P(y∣x) `$,其中 x 是模型的输入。
|
||||
|
|
|
|||
Loading…
Reference in New Issue