add fourth chapter
This commit is contained in:
parent
be238a37c5
commit
d9e1a27bf2
|
|
@ -609,7 +609,7 @@ print(attn_scores_2)
|
||||||
可以看到,输出中的第二个元素与我们之前计算的 `attn_score_22` 相同:
|
可以看到,输出中的第二个元素与我们之前计算的 `attn_score_22` 相同:
|
||||||
|
|
||||||
```python
|
```python
|
||||||
tensor([1.2705, 1.8524, 1.8111, 1.0795, 0.5577, 1.5440])
|
tensor([1.2705, 1.8524, 1.8111, 1.0795, 0.5577, 1.5440])
|
||||||
```
|
```
|
||||||
|
|
||||||
第三步是将注意力得分转换为注意力权重,如图 3.16 所示。
|
第三步是将注意力得分转换为注意力权重,如图 3.16 所示。
|
||||||
|
|
@ -627,7 +627,7 @@ print(attn_weights_2)
|
||||||
结果如下:
|
结果如下:
|
||||||
|
|
||||||
```python
|
```python
|
||||||
tensor([0.1500, 0.2264, 0.2199, 0.1311, 0.0906, 0.1820])
|
tensor([0.1500, 0.2264, 0.2199, 0.1311, 0.0906, 0.1820])
|
||||||
```
|
```
|
||||||
|
|
||||||
> [!NOTE]
|
> [!NOTE]
|
||||||
|
|
@ -1076,7 +1076,7 @@ print(batch.shape) #A
|
||||||
以上代码生成一个三维张量,包含 2 个输入文本,每个文本包含 6 个 token,每个 token 表示为一个 3 维嵌入向量:
|
以上代码生成一个三维张量,包含 2 个输入文本,每个文本包含 6 个 token,每个 token 表示为一个 3 维嵌入向量:
|
||||||
|
|
||||||
```python
|
```python
|
||||||
torch.Size([2, 6, 3])
|
torch.Size([2, 6, 3])
|
||||||
```
|
```
|
||||||
|
|
||||||
以下的 CausalAttention 类与我们之前实现的 SelfAttention 类类似,不同之处在于我们现在添加了dropout和因果掩码组件,如以下代码所示:
|
以下的 CausalAttention 类与我们之前实现的 SelfAttention 类类似,不同之处在于我们现在添加了dropout和因果掩码组件,如以下代码所示:
|
||||||
|
|
@ -1204,6 +1204,7 @@ tensor([[[-0.4519, 0.2216, 0.4772, 0.1063],
|
||||||
[-0.5675, -0.0843, 0.5478, 0.3589],
|
[-0.5675, -0.0843, 0.5478, 0.3589],
|
||||||
[-0.5526, -0.0981, 0.5321, 0.3428],
|
[-0.5526, -0.0981, 0.5321, 0.3428],
|
||||||
[-0.5299, -0.1081, 0.5077, 0.3493]],
|
[-0.5299, -0.1081, 0.5077, 0.3493]],
|
||||||
|
|
||||||
[[-0.4519, 0.2216, 0.4772, 0.1063],
|
[[-0.4519, 0.2216, 0.4772, 0.1063],
|
||||||
[-0.5874, 0.0058, 0.5891, 0.3257],
|
[-0.5874, 0.0058, 0.5891, 0.3257],
|
||||||
[-0.6300, -0.0632, 0.6202, 0.3860],
|
[-0.6300, -0.0632, 0.6202, 0.3860],
|
||||||
|
|
|
||||||
Loading…
Reference in New Issue