add second chapter

2024-10-25 10:32:33 +08:00 · 2024-10-25 10:32:33 +08:00 · 041d12b6ad
parent ea9eee7ff5
commit 041d12b6ad
1 changed files with 3 additions and 1 deletions
--- a/Book/2.处理文本数据.md
+++ b/Book/2.处理文本数据.md
@ -49,7 +49,7 @@
 >
 > + **知识的有效性：** 模型的知识基于它的预训练数据，因此无法获取最新的信息。比如，GPT-3 的知识截止到 2021 年，无法回答最新的事件或发展。
 > + **模型大小的限制：** 即使是大型模型，所能存储和运用的知识也是有限的。如果任务涉及特定领域（如医学、法律、科学研究），模型在预训练阶段可能没有涵盖足够的信息。
-> + **生成的准确性：**生成模型可能会凭空编造信息（即“幻觉现象”），导致生成内容不准确或虚假。
+> + **生成的准确性：** 生成模型可能会凭空编造信息（即“幻觉现象”），导致生成内容不准确或虚假。
 >
 > 而检索增强技术正是为了解决上述不足，它大致原理为将外部知识库（如文档、数据库、互联网等）进行向量化后存入到向量数据库中。当用户提交一个查询时，首先将这个查询也编码成一个向量，然后去承载外部知识库的向量数据种检索（检索技术有很多种）与问题相关的信息。检索到的信息被作为额外的上下文信息输入到LLM中，LLM会将这些外部信息与原始输入结合起来，以更准确和丰富的内容生成回答。想要进一步了解RAG技术及其应用，可以参考：[RAG 专区](https://waytoagi.feishu.cn/wiki/PUUfwNkwqielBOkbO5RcjnTQnUd)

@ -75,6 +75,8 @@

 我们即将用于 LLM 训练的文本数据集是一部由 Edith Wharton 创作的短篇小说《判决》，该作品已在网上公开，因此允许用于 LLM 训练任务。该文本可在 Wikisource 上找到，网址是 https://en.wikisource.org/wiki/The_Verdict，您可以将其复制并粘贴到文本文件中。我已将其复制到名为 "the-verdict.txt" 的文本文件中，以便使用 Python 的标准文件读取工具进行加载。

+`#000051 Listing 2.1 Reading in a short story as text sample into Python`
+
 ```python
 # Listing 2.1 Reading in a short story as text sample into Python
 with open("the-verdict.txt", "r", encoding="utf-8") as f: