add second chapter

This commit is contained in:
skindhu 2024-10-25 10:32:33 +08:00
parent ea9eee7ff5
commit 041d12b6ad
1 changed files with 3 additions and 1 deletions

View File

@ -49,7 +49,7 @@
>
> + **知识的有效性:** 模型的知识基于它的预训练数据因此无法获取最新的信息。比如GPT-3 的知识截止到 2021 年,无法回答最新的事件或发展。
> + **模型大小的限制:** 即使是大型模型,所能存储和运用的知识也是有限的。如果任务涉及特定领域(如医学、法律、科学研究),模型在预训练阶段可能没有涵盖足够的信息。
> + **生成的准确性:**生成模型可能会凭空编造信息(即“幻觉现象”),导致生成内容不准确或虚假。
> + **生成的准确性:** 生成模型可能会凭空编造信息(即“幻觉现象”),导致生成内容不准确或虚假。
>
> 而检索增强技术正是为了解决上述不足它大致原理为将外部知识库如文档、数据库、互联网等进行向量化后存入到向量数据库中。当用户提交一个查询时首先将这个查询也编码成一个向量然后去承载外部知识库的向量数据种检索检索技术有很多种与问题相关的信息。检索到的信息被作为额外的上下文信息输入到LLM中LLM会将这些外部信息与原始输入结合起来以更准确和丰富的内容生成回答。想要进一步了解RAG技术及其应用可以参考[RAG 专区](https://waytoagi.feishu.cn/wiki/PUUfwNkwqielBOkbO5RcjnTQnUd)
@ -75,6 +75,8 @@
我们即将用于 LLM 训练的文本数据集是一部由 Edith Wharton 创作的短篇小说《判决》,该作品已在网上公开,因此允许用于 LLM 训练任务。该文本可在 Wikisource 上找到,网址是 https://en.wikisource.org/wiki/The_Verdict您可以将其复制并粘贴到文本文件中。我已将其复制到名为 "the-verdict.txt" 的文本文件中,以便使用 Python 的标准文件读取工具进行加载。
`#000051 Listing 2.1 Reading in a short story as text sample into Python`
```python
# Listing 2.1 Reading in a short story as text sample into Python
with open("the-verdict.txt", "r", encoding="utf-8") as f: