From 9f41e52395dfbe80a108e8aa1968a65fe2c53119 Mon Sep 17 00:00:00 2001 From: Ning Guo Date: Thu, 24 Jul 2025 21:56:44 +0800 Subject: [PATCH 1/3] init with docsify --- .gitignore | 3 + .nojekyll | 0 _sidebar.md | 17 ++++++ cn-Book/1.理解大语言模型.md | 2 + cn-Book/2.处理文本数据.md | 2 + cn-Book/3.实现注意力机制.md | 2 + ...从零开始实现一个用于文本生成的 GPT 模型.md | 2 + cn-Book/5.在无标记数据集上进行预训练.md | 2 + cn-Book/6.用于分类任务的微调.md | 2 + cn-Book/7.指令遵循微调.md | 2 + cn-Book/附录A.PyTorch简介.md | 2 + cn-Book/附录B.参考文献和扩展阅读.md | 2 + cn-Book/附录C.习题解答.md | 2 + cn-Book/附录D.给训练循环添加高级技巧.md | 2 + cn-Book/附录E.使用LoRA的参数高效微调.md | 2 + index.html | 59 +++++++++++++++++++ run_docsify.sh | 3 + 17 files changed, 106 insertions(+) create mode 100644 .nojekyll create mode 100644 _sidebar.md create mode 100644 index.html create mode 100644 run_docsify.sh diff --git a/.gitignore b/.gitignore index e43b0f9..3d41e4c 100644 --- a/.gitignore +++ b/.gitignore @@ -1 +1,4 @@ .DS_Store + +.cursor + diff --git a/.nojekyll b/.nojekyll new file mode 100644 index 0000000..e69de29 diff --git a/_sidebar.md b/_sidebar.md new file mode 100644 index 0000000..8fa251d --- /dev/null +++ b/_sidebar.md @@ -0,0 +1,17 @@ +- **Build a Large Language Model (From Scratch) 中文版** + + - [1.理解大语言模型](./cn-Book/1.理解大语言模型.md) + - [2.处理文本数据](./cn-Book/2.处理文本数据.md) + - [3.实现注意力机制](./cn-Book/3.实现注意力机制.md) + - [4.从零开始实现一个用于文本生成的 GPT 模型](./cn-Book/4.从零开始实现一个用于文本生成的%20GPT%20模型.md) + - [5.在无标记数据集上进行预训练](./cn-Book/5.在无标记数据集上进行预训练.md) + - [6.用于分类任务的微调](./cn-Book/6.用于分类任务的微调.md) + - [7.指令遵循微调](./cn-Book/7.指令遵循微调.md) + +- **附录** + + - [附录A. PyTorch简介](./cn-Book/附录A.PyTorch简介.md) + - [附录B. 参考文献和扩展阅读](./cn-Book/附录B.参考文献和扩展阅读.md) + - [附录C. 习题解答](./cn-Book/附录C.习题解答.md) + - [附录D. 给训练循环添加高级技巧](./cn-Book/附录D.给训练循环添加高级技巧.md) + - [附录E. 使用LoRA的参数高效微调](./cn-Book/附录E.使用LoRA的参数高效微调.md) diff --git a/cn-Book/1.理解大语言模型.md b/cn-Book/1.理解大语言模型.md index 24e0f96..2ca4fa5 100644 --- a/cn-Book/1.理解大语言模型.md +++ b/cn-Book/1.理解大语言模型.md @@ -1,3 +1,5 @@ +# 1.理解大语言模型 + 本章涵盖以下内容: - **大语言模型(LLM)背后基本概念的高级解释** diff --git a/cn-Book/2.处理文本数据.md b/cn-Book/2.处理文本数据.md index b67b787..1311885 100644 --- a/cn-Book/2.处理文本数据.md +++ b/cn-Book/2.处理文本数据.md @@ -1,3 +1,5 @@ +# 2.处理文本数据 + 本章涵盖以下内容: + **为大语言模型的训练准备文本数据集** diff --git a/cn-Book/3.实现注意力机制.md b/cn-Book/3.实现注意力机制.md index 801a557..0054e13 100644 --- a/cn-Book/3.实现注意力机制.md +++ b/cn-Book/3.实现注意力机制.md @@ -1,5 +1,7 @@ +# 3.实现注意力机制 + 本章涵盖以下内容: + **探讨在神经网络中使用注意力机制的原因** diff --git a/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md b/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md index 8839fca..0b7bbb4 100644 --- a/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md +++ b/cn-Book/4.从零开始实现一个用于文本生成的 GPT 模型.md @@ -1,3 +1,5 @@ +# 4.从零开始实现一个用于文本生成的 GPT 模型 + 本章涵盖以下内容: + **编写一个类 GPT 的大语言模型(LLM),可以训练其生成类人文本(指的是由人工智能模型生成的文本,这些文本在语言表达、语法结构、情感表达等方面与人类自然书写的文本非常相似)** diff --git a/cn-Book/5.在无标记数据集上进行预训练.md b/cn-Book/5.在无标记数据集上进行预训练.md index 079d8f0..7e81c0f 100644 --- a/cn-Book/5.在无标记数据集上进行预训练.md +++ b/cn-Book/5.在无标记数据集上进行预训练.md @@ -1,3 +1,5 @@ +# 5.在无标记数据集上进行预训练 + 本章涵盖以下内容: + **计算训练集和验证集的损失,以评估训练过程中大型语言模型生成文本的质量** diff --git a/cn-Book/6.用于分类任务的微调.md b/cn-Book/6.用于分类任务的微调.md index 2314149..82c57b2 100644 --- a/cn-Book/6.用于分类任务的微调.md +++ b/cn-Book/6.用于分类任务的微调.md @@ -1,3 +1,5 @@ +# 6.用于分类任务的微调 + 本章涵盖以下内容: + **介绍不同的LLM微调方法** diff --git a/cn-Book/7.指令遵循微调.md b/cn-Book/7.指令遵循微调.md index 87497d6..5171f73 100644 --- a/cn-Book/7.指令遵循微调.md +++ b/cn-Book/7.指令遵循微调.md @@ -1,3 +1,5 @@ +# 7.指令遵循微调 + 本章涵盖以下内容: + **LLM 指令微调过程概述** diff --git a/cn-Book/附录A.PyTorch简介.md b/cn-Book/附录A.PyTorch简介.md index 6ecd85b..659205a 100644 --- a/cn-Book/附录A.PyTorch简介.md +++ b/cn-Book/附录A.PyTorch简介.md @@ -1,3 +1,5 @@ +# 附录A. PyTorch简介 + 本章涵盖以下内容: + **PyTorch深度学习框架概述** diff --git a/cn-Book/附录B.参考文献和扩展阅读.md b/cn-Book/附录B.参考文献和扩展阅读.md index 699a4ad..c0b2b29 100644 --- a/cn-Book/附录B.参考文献和扩展阅读.md +++ b/cn-Book/附录B.参考文献和扩展阅读.md @@ -1,4 +1,6 @@ +# 附录B. 参考文献和扩展阅读 + - [第一章](#第一章) - [第二掌](#第二掌) - [第三章](#第三章) diff --git a/cn-Book/附录C.习题解答.md b/cn-Book/附录C.习题解答.md index 0161020..014c27a 100644 --- a/cn-Book/附录C.习题解答.md +++ b/cn-Book/附录C.习题解答.md @@ -1,4 +1,6 @@ +# 附录C. 习题解答 + - [第二掌](#第二掌) - [练习 2.1](#练习-21) - [练习 2.2](#练习-22) diff --git a/cn-Book/附录D.给训练循环添加高级技巧.md b/cn-Book/附录D.给训练循环添加高级技巧.md index be7ab62..4224f25 100644 --- a/cn-Book/附录D.给训练循环添加高级技巧.md +++ b/cn-Book/附录D.给训练循环添加高级技巧.md @@ -1,3 +1,5 @@ +# 附录D. 给训练循环添加高级技巧 + - [D.1 学习率预热](#d1-学习率预热) - [D.2 余弦衰减](#d2-余弦衰减) - [D.3 梯度裁剪](#d3-梯度裁剪) diff --git a/cn-Book/附录E.使用LoRA的参数高效微调.md b/cn-Book/附录E.使用LoRA的参数高效微调.md index 3c338b3..ec168db 100644 --- a/cn-Book/附录E.使用LoRA的参数高效微调.md +++ b/cn-Book/附录E.使用LoRA的参数高效微调.md @@ -1,3 +1,5 @@ +# 附录E. 使用LoRA的参数高效微调 + 本附录介绍低秩适应 (LoRA),这是最广泛使用的参数高效微调技术之一。在解释 LoRA 背后的主要思想之后,本附录将基于第 6 章中的垃圾邮件分类微调示例并对 LLM 进行微调。然而,需要注意的是,LoRA 微调也适用于第 7 章中讨论的有监督的指令微调。 ----- diff --git a/index.html b/index.html new file mode 100644 index 0000000..7f14794 --- /dev/null +++ b/index.html @@ -0,0 +1,59 @@ + + + + + + Build a Large Language Model (From Scratch) 中文版 + + + + + + + +
+ + + + + + + + + + + + + + + + + + + + \ No newline at end of file diff --git a/run_docsify.sh b/run_docsify.sh new file mode 100644 index 0000000..d3e5028 --- /dev/null +++ b/run_docsify.sh @@ -0,0 +1,3 @@ +#! /bin/bash + +docsify serve . \ No newline at end of file From feda2226a2d83a3214d962fbc835a78c4bbb5dc8 Mon Sep 17 00:00:00 2001 From: Ning Guo Date: Thu, 24 Jul 2025 21:59:53 +0800 Subject: [PATCH 2/3] update book name of sidebar --- _sidebar.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/_sidebar.md b/_sidebar.md index 8fa251d..21d00a1 100644 --- a/_sidebar.md +++ b/_sidebar.md @@ -1,4 +1,4 @@ -- **Build a Large Language Model (From Scratch) 中文版** +- **从零构建大模型** - [1.理解大语言模型](./cn-Book/1.理解大语言模型.md) - [2.处理文本数据](./cn-Book/2.处理文本数据.md) From 2da27b87e0e4befcd1a890fcac57d603f581ff69 Mon Sep 17 00:00:00 2001 From: Ning Guo Date: Fri, 25 Jul 2025 16:00:18 +0800 Subject: [PATCH 3/3] update repo with skindhu --- index.html | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/index.html b/index.html index 7f14794..63beea7 100644 --- a/index.html +++ b/index.html @@ -17,7 +17,7 @@