add fifth chapter

2024-11-07 15:38:26 +08:00 · 2024-11-07 15:38:26 +08:00 · b514875666
parent c5424bf0b2
commit b514875666
1 changed files with 1 additions and 13 deletions
--- a/cn-Book/5.在无标记数据集上进行预训练.md
+++ b/cn-Book/5.在无标记数据集上进行预训练.md
@ -272,19 +272,7 @@ tensor([ -9.5042, -10.3796, -11.3677, -11.4798, -9.7764, -12.2561])
 >
 > 2. **归属概率在损失函数中的作用**
 >
->    GPT模型训练的目标是最大化正确目标 token 的概率，通常，我们会使用交叉熵损失来衡量模型预测与实际目标之间的差异。对于一个目标 token 序列 $` y=(y1,y2,…,yn) `$，GPT会生成一个对应的预测概率分布 $` P(y∣x) `$，其中 x 是模型的输入。
+>    GPT模型训练的目标是最大化正确目标 token 的概率，通常，我们会使用交叉熵损失来衡量模型预测与实际目标之间的差。
 >
 >    **交叉熵损失的公式：**
 >
 >    在计算交叉熵损失时，我们希望最大化模型分配给每个正确目标token的概率。交叉熵损失的数学公式为：
 >
 >    其中：
 >
 >    + T 是序列长度
 >    + y<sub>t</sub> 是在位置 ttt 上的目标token
 >    + P(y<sub>t</sub>∣x,θ) 是模型在参数 θ 下对目标token y<sub>t</sub>  的条件概率
 >
 >    在公式中，对每个token的概率 P(y<sub>t</sub>∣x,θ)  取对数，将乘积形式的联合概率转换为求和形式，有助于避免数值下溢，同时简化优化过程。