add fifth chapter

This commit is contained in:
skindhu 2024-11-07 15:37:22 +08:00
parent 8c763c9701
commit 5667bf1b36
1 changed files with 2 additions and 2 deletions

View File

@ -270,7 +270,7 @@ tensor([ -9.5042, -10.3796, -11.3677, -11.4798, -9.7764, -12.2561])
> >
> >
> >
> **归属概率在损失函数中的作用** > 2. **归属概率在损失函数中的作用**
> >
> GPT模型训练的目标是最大化正确目标 token 的概率,通常,我们会使用交叉熵损失来衡量模型预测与实际目标之间的差异。对于一个目标 token 序列 $` y=(y1,y2,…,yn) `$GPT会生成一个对应的预测概率分布 $` P(yx) `$,其中 x 是模型的输入。 > GPT模型训练的目标是最大化正确目标 token 的概率,通常,我们会使用交叉熵损失来衡量模型预测与实际目标之间的差异。对于一个目标 token 序列 $` y=(y1,y2,…,yn) `$GPT会生成一个对应的预测概率分布 $` P(yx) `$,其中 x 是模型的输入。
> >
@ -278,7 +278,7 @@ tensor([ -9.5042, -10.3796, -11.3677, -11.4798, -9.7764, -12.2561])
> >
> 在计算交叉熵损失时我们希望最大化模型分配给每个正确目标token的概率。交叉熵损失的数学公式为 > 在计算交叉熵损失时我们希望最大化模型分配给每个正确目标token的概率。交叉熵损失的数学公式为
> >
> $$ \text { Loss }=-\sum_{t=1}^{T} \ln P\left(y_{t} \mid x, \theta\right) $$ > $$\text { Loss }=-\sum_{t=1}^{T} \ln P\left(y_{t} \mid x, \theta\right)$$
> >
> 其中: > 其中:
> >