Update 2.处理文本数据.md

This commit is contained in:
yuhui 2025-03-11 19:51:04 +08:00 committed by GitHub
parent e95b854405
commit 9cd180b399
No known key found for this signature in database
GPG Key ID: B5690EEEBB952194
1 changed files with 1 additions and 1 deletions

View File

@ -62,7 +62,7 @@
> >
> **个人思考:** 这里聊一下检索增强技术RAG目前已经广泛应用于特定领域的知识问答场景。尽管GPT在文本生成任务中表现强大但它们依赖的是预训练的知识这意味着它们的回答依赖于模型在预训练阶段学习到的信息。这种方式导致了几个问题 > **个人思考:** 这里聊一下检索增强技术RAG目前已经广泛应用于特定领域的知识问答场景。尽管GPT在文本生成任务中表现强大但它们依赖的是预训练的知识这意味着它们的回答依赖于模型在预训练阶段学习到的信息。这种方式导致了几个问题
> >
> + **知识的效性:** 模型的知识基于它的预训练数据因此无法获取最新的信息。比如GPT-3 的知识截止到 2021 年,无法回答最新的事件或发展。 > + **知识的效性:** 模型的知识基于它的预训练数据因此无法获取最新的信息。比如GPT-3 的知识截止到 2021 年,无法回答最新的事件或发展。
> + **模型大小的限制:** 即使是大型模型,所能存储和运用的知识也是有限的。如果任务涉及特定领域(如医学、法律、科学研究),模型在预训练阶段可能没有涵盖足够的信息。 > + **模型大小的限制:** 即使是大型模型,所能存储和运用的知识也是有限的。如果任务涉及特定领域(如医学、法律、科学研究),模型在预训练阶段可能没有涵盖足够的信息。
> + **生成的准确性:** 生成模型可能会凭空编造信息(即“幻觉现象”),导致生成内容不准确或虚假。 > + **生成的准确性:** 生成模型可能会凭空编造信息(即“幻觉现象”),导致生成内容不准确或虚假。
> >