add fifth chapter
This commit is contained in:
parent
9bf24dd2a2
commit
447a41c653
|
|
@ -268,7 +268,25 @@ tensor([ -9.5042, -10.3796, -11.3677, -11.4798, -9.7764, -12.2561])
|
||||||
>
|
>
|
||||||
> 虽然这个和也是负数,但它不会像直接相乘的结果那样接近于0,避免了数值下溢的问题。**对数的累加性质**允许我们将原本的累乘操作转换为累加,使得计算更加稳定和高效。
|
> 虽然这个和也是负数,但它不会像直接相乘的结果那样接近于0,避免了数值下溢的问题。**对数的累加性质**允许我们将原本的累乘操作转换为累加,使得计算更加稳定和高效。
|
||||||
>
|
>
|
||||||
>
|
> 2. **归属概率在损失函数中的作用**
|
||||||
|
>
|
||||||
|
> GPT模型训练的目标是最大化正确目标 token 的概率,通常,我们会使用交叉熵损失来衡量模型预测与实际目标之间的差异。对于一个目标 token 序列 $` y=(y1,y2,…,yn) `$,GPT会生成一个对应的预测概率分布 $` P(y∣x) `$,其中 x 是模型的输入。
|
||||||
|
>
|
||||||
|
> **交叉熵损失的公式:**
|
||||||
|
>
|
||||||
|
> 在计算交叉熵损失时,我们希望最大化模型分配给每个正确目标token的概率。交叉熵损失的数学公式为:
|
||||||
|
>
|
||||||
|
> $$ \text { Loss }=-\sum_{t=1}^{T} \ln P\left(y_{t} \mid x, \theta\right) $$
|
||||||
|
>
|
||||||
|
> 其中:
|
||||||
|
>
|
||||||
|
> + T 是序列长度
|
||||||
|
> + y<sub>t</sub> 是在位置 ttt 上的目标token
|
||||||
|
> + P(y<sub>t</sub>∣x,θ) 是模型在参数 θ 下对目标token y<sub>t</sub> 的条件概率
|
||||||
|
>
|
||||||
|
> 在公式中,对每个token的概率 P(y<sub>t</sub>∣x,θ) 取对数,将乘积形式的联合概率转换为求和形式,有助于避免数值下溢,同时简化优化过程。
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
|
||||||
Loading…
Reference in New Issue