From 9540a8821bce197e81df5ee056a3a449bcd02ddd Mon Sep 17 00:00:00 2001 From: skindhu Date: Thu, 7 Nov 2024 15:39:19 +0800 Subject: [PATCH] add fifth chapter --- cn-Book/5.在无标记数据集上进行预训练.md | 16 +++++++++++++++- 1 file changed, 15 insertions(+), 1 deletion(-) diff --git a/cn-Book/5.在无标记数据集上进行预训练.md b/cn-Book/5.在无标记数据集上进行预训练.md index 9f0623c..41d34ef 100644 --- a/cn-Book/5.在无标记数据集上进行预训练.md +++ b/cn-Book/5.在无标记数据集上进行预训练.md @@ -272,7 +272,21 @@ tensor([ -9.5042, -10.3796, -11.3677, -11.4798, -9.7764, -12.2561]) > > 2. **归属概率在损失函数中的作用** > -> GPT模型训练的目标是最大化正确目标 token 的概率,通常,我们会使用交叉熵损失来衡量模型预测与实际目标之间的差。 +> GPT模型训练的目标是最大化正确目标 token 的概率,通常,我们会使用交叉熵损失来衡量模型预测与实际目标之间的差异。对于一个目标 token 序列 `y=(y1,y2,…,yn)`,GPT会生成一个对应的预测概率分布 `P(y∣x)`,其中 x 是模型的输入。 +> +> **交叉熵损失的公式:** +> +> 在计算交叉熵损失时,我们希望最大化模型分配给每个正确目标token的概率。交叉熵损失的数学公式为: +> +> $$ \text { Loss }=-\sum_{t=1}^{T} \ln P\left(y_{t} \mid x, \theta\right) $$ +> +> 其中: +> +> + T 是序列长度 +> + yt 是在位置 ttt 上的目标token +> + P(yt∣x,θ) 是模型在参数 θ 下对目标token yt 的条件概率 +> +> 在公式中,对每个token的概率 P(yt∣x,θ) 取对数,将乘积形式的联合概率转换为求和形式,有助于避免数值下溢,同时简化优化过程。