add fourth chapter

2024-11-05 17:46:19 +08:00 · 2024-11-05 17:46:19 +08:00 · d9e1a27bf2
parent be238a37c5
commit d9e1a27bf2
1 changed files with 15 additions and 14 deletions
--- a/cn-Book/3.实现注意力机制.md
+++ b/cn-Book/3.实现注意力机制.md
@ -609,7 +609,7 @@ print(attn_scores_2)
 可以看到，输出中的第二个元素与我们之前计算的 `attn_score_22` 相同：
 ```python
- tensor([1.2705, 1.8524, 1.8111, 1.0795, 0.5577, 1.5440])
+tensor([1.2705, 1.8524, 1.8111, 1.0795, 0.5577, 1.5440])
 ```
 第三步是将注意力得分转换为注意力权重，如图 3.16 所示。
@ -627,7 +627,7 @@ print(attn_weights_2)
 结果如下：
 ```python
- tensor([0.1500, 0.2264, 0.2199, 0.1311, 0.0906, 0.1820])
+tensor([0.1500, 0.2264, 0.2199, 0.1311, 0.0906, 0.1820])
 ```
 > [!NOTE]
@ -1076,7 +1076,7 @@ print(batch.shape)                                              #A
 以上代码生成一个三维张量，包含 2 个输入文本，每个文本包含 6 个 token，每个 token 表示为一个 3 维嵌入向量：
 ```python
- torch.Size([2, 6, 3])
+torch.Size([2, 6, 3])
 ```
 以下的 CausalAttention 类与我们之前实现的 SelfAttention 类类似，不同之处在于我们现在添加了dropout和因果掩码组件，如以下代码所示：
@ -1204,6 +1204,7 @@ tensor([[[-0.4519,  0.2216,  0.4772,  0.1063],
         [-0.5675, -0.0843,  0.5478,  0.3589],
         [-0.5526, -0.0981,  0.5321,  0.3428],
         [-0.5299, -0.1081,  0.5077,  0.3493]],
        [[-0.4519,  0.2216,  0.4772,  0.1063],
         [-0.5874,  0.0058,  0.5891,  0.3257],
         [-0.6300, -0.0632,  0.6202,  0.3860],