From 7d85deacb67746dfddbd857a2069221fb71cd9db Mon Sep 17 00:00:00 2001 From: voltage-poppy <198969844+voltage-poppy@users.noreply.github.com> Date: Mon, 16 Jun 2025 23:59:08 +0800 Subject: [PATCH] typo fix: corrected to <|unk|> --- cn-Book/2.处理文本数据.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/cn-Book/2.处理文本数据.md b/cn-Book/2.处理文本数据.md index d43fb4d..b67b787 100644 --- a/cn-Book/2.处理文本数据.md +++ b/cn-Book/2.处理文本数据.md @@ -346,7 +346,7 @@ KeyError: 'Hello' -现在,让我们修改词汇表,将这两个特殊token 和 <|endoftext|> 包含在内,方法是将它们添加到我们在上一节中创建的唯一单词列表中: +现在,让我们修改词汇表,将这两个特殊token <|unk|> 和 <|endoftext|> 包含在内,方法是将它们添加到我们在上一节中创建的唯一单词列表中: ```python all_tokens = sorted(list(set(preprocessed)))