add second chapter
This commit is contained in:
parent
ea9eee7ff5
commit
041d12b6ad
|
|
@ -49,7 +49,7 @@
|
|||
>
|
||||
> + **知识的有效性:** 模型的知识基于它的预训练数据,因此无法获取最新的信息。比如,GPT-3 的知识截止到 2021 年,无法回答最新的事件或发展。
|
||||
> + **模型大小的限制:** 即使是大型模型,所能存储和运用的知识也是有限的。如果任务涉及特定领域(如医学、法律、科学研究),模型在预训练阶段可能没有涵盖足够的信息。
|
||||
> + **生成的准确性:**生成模型可能会凭空编造信息(即“幻觉现象”),导致生成内容不准确或虚假。
|
||||
> + **生成的准确性:** 生成模型可能会凭空编造信息(即“幻觉现象”),导致生成内容不准确或虚假。
|
||||
>
|
||||
> 而检索增强技术正是为了解决上述不足,它大致原理为将外部知识库(如文档、数据库、互联网等)进行向量化后存入到向量数据库中。当用户提交一个查询时,首先将这个查询也编码成一个向量,然后去承载外部知识库的向量数据种检索(检索技术有很多种)与问题相关的信息。检索到的信息被作为额外的上下文信息输入到LLM中,LLM会将这些外部信息与原始输入结合起来,以更准确和丰富的内容生成回答。想要进一步了解RAG技术及其应用,可以参考:[RAG 专区](https://waytoagi.feishu.cn/wiki/PUUfwNkwqielBOkbO5RcjnTQnUd)
|
||||
|
||||
|
|
@ -75,6 +75,8 @@
|
|||
|
||||
我们即将用于 LLM 训练的文本数据集是一部由 Edith Wharton 创作的短篇小说《判决》,该作品已在网上公开,因此允许用于 LLM 训练任务。该文本可在 Wikisource 上找到,网址是 https://en.wikisource.org/wiki/The_Verdict,您可以将其复制并粘贴到文本文件中。我已将其复制到名为 "the-verdict.txt" 的文本文件中,以便使用 Python 的标准文件读取工具进行加载。
|
||||
|
||||
`#000051 Listing 2.1 Reading in a short story as text sample into Python`
|
||||
|
||||
```python
|
||||
# Listing 2.1 Reading in a short story as text sample into Python
|
||||
with open("the-verdict.txt", "r", encoding="utf-8") as f:
|
||||
|
|
|
|||
Loading…
Reference in New Issue