diff --git a/Book/2.处理文本数据.md b/Book/2.处理文本数据.md index 2502b8c..d3d5d7c 100644 --- a/Book/2.处理文本数据.md +++ b/Book/2.处理文本数据.md @@ -30,16 +30,14 @@ > [!TIP] > -> 不同格式的数据源(如文本、图像、音频、视频)在处理和嵌入时,需要不同的模型和技术,原因在于它们的数据结构、特征和处理方式各不相同,因此需要针对性的方法将这些不同的数据类型转换为适合神经网络处理的向量表示。以下总结下不同数据源在嵌入时的一些区别: +> **个人思考:** 不同格式的数据源(如文本、图像、音频、视频)在处理和嵌入时,需要不同的模型和技术,原因在于它们的数据结构、特征和处理方式各不相同,因此需要针对性的方法将这些不同的数据类型转换为适合神经网络处理的向量表示。以下总结了不同数据源在嵌入时的一些区别: > -> | 数据类型 | 数据特征 | 嵌入模型 | 主要特征 | -> | :------: | :------: | :------: | :------: | -> | | | | | -> | | | | | -> | | | | | -> | | | | | -> -> +> | 数据类型 | 数据特征 | 嵌入模型 | 主要特征 | +> | :------: | :------------------------: | :--------------------------------: | :------------------------: | +> | 文本 | 离散的、序列化的符号数据 | Word2Vec, GloVe, BERT, GPT 等 | 语义关系、上下文理解 | +> | 图像 | 二维像素网格,具有空间特征 | CNN(ResNet、VGG)、ViT | 形状、纹理、颜色等视觉特征 | +> | 音频 | 一维时序信号 | CNN+频谱图、RNN、Transformer | 频率、音调、时序依赖 | +> | 视频 | 时空序列数据 | 3D CNN、RNN+CNN、Video Transformer | 时空特征、动作捕捉 |