【必学收藏】Embedding技术演进史：传统统计方法详解与大模型学习指南

文章介绍了Embedding的三种传统统计表示方法：One-Hot编码、词袋模型和TF-IDF。从简单直观的One-Hot到考虑词频的词袋模型，再到引入权重概念的TF-IDF，每一步都使文字数字化表示更"聪明"。这些方法虽有局限，但为后续基于神经网络的词向量表示奠定了基础，是理解现代大模型中Embedding技术的重要起点。

datian1234

1022人浏览 · 2025-10-29 10:39:28

datian1234 · 2025-10-29 10:39:28 发布

前言

当我们提到 Embedding，很多人第一反应可能是“把文字变成数字”。其实，这背后是一场从统计学到深度学习的技术演化史。今天，我们先聊聊 Embedding 的第一次技术演化——传统基于统计的词向量表示。

在计算机开始处理自然语言的时候，我们面临一个基本问题：计算机只能理解数字，而文字是符号。

因此，在自然语言处理的早期阶段，把文字“变成数字”是所有任务的第一步。今天，我们就从三个经典工具聊起：One-Hot、词袋模型、TF-IDF。

1.One-Hot 编码

独热编码（One-Hot Encoding） 是最直观的文字向数字的映射方法。将文本语料使用 One-hot 编码步骤如下：

第一步：将原始样本进行分词处理并得到词表，其长度为；

第二步：词在向量中的位置用 1 表示，其余位置为 0

经过上面两步处理，我们便得到了 one-hot 向量表示。

比如，假设词表有 5 个词：[“猫”, “狗”, “鱼”, “鸟”, “兔”]，则：

“猫” → [1,0,0,0,0]
“狗” → [0,1,0,0,0]

可以发现 one-hot 表示的优点在于简单、唯一确定，但是缺点在于：

① 向量非常稀疏（大多数元素是 0），占用大量内存。

② 完全没有语义信息，“猫”和“狗”在向量空间里同样“远”。

2.词袋模型（Bag of Words, BoW）

为了让向量更有意义，研究者提出了 词袋模型：

第一步：将原始样本进行分词处理并得到词表，其长度为；

第二步：为每个样本初始化一个长度为全0向量，每个位置与词表中的词对应；

第三步：对于每个样本来说，依次遍历词表中的每个词，如过存在于样本中则把向量对应位置置为1。

经过上面三步处理，我们便得到了基于词袋模型的向量表示。

例如：

文档 1: “猫喜欢吃鱼”

文档 2: “狗喜欢吃骨头”

词表: [“猫”, “狗”, “鱼”, “骨头”, “喜欢”, “吃”]

文档 1 → [1,0,1,0,1,1]
文档 2 → [0,1,0,1,1,1]

可以发现词袋模型的优点在于比 One-Hot 丰富，能反映词在文档中的出现频率；但是缺点：

① 向量仍然高维且稀疏。

② 高频词（如“的”、“是”）可能掩盖文档特征。

③ 依然缺乏语义关联，“猫”和“狗”仍然无法体现相似性。

3.TF-IDF：加入重要性权重

通常来讲在一个样本中一个词出现的频率越高，其重要性应该相应越高，即考虑到词频对文本向量的影响。但是如果仅仅考虑这一个因素，则同样会带来一个新的弊端，即有的词不只是在某个样本中出现的频率高，其实它在整个数据集中出现的频率都很高，而这样的词往往也是没有意义的，因此，TFIDF的做法是通过词的逆文档频率来加以修正调整。

为了解决词频带来的偏差，TF-IDF（Term Frequency-Inverse Document Frequency）提出了权重概念。

TFIDF的计算过程总体上可以分为两步，先统计词频，然后计算逆文档频率，最后将两者相乘得到TFIDF值。

第一步：统计词频

某个词在该样本中出现的次数

第二步：计算逆文档频率

总的样本数包含有该词的样本数

其中表示取自然对数。

但是，如果一个词越常见，则对应的分母就越大，逆文档频率就越小。分母之所以要加1，是为了避免分母为0时（当使用自定义词表时）的平滑处理。这就是最原始的IDF计算方式。不过这种做法的一个瑕疵是，当所有样本中都含有某个词的时候，计算出来的IDF为负数，因此，sklearn在实现IDF计算时采用了另外一种平滑处理方式

总的样本数包含有该词的样本数

这样就同时避免了上面所出现的两种情况。在后面的计算示例中，我们也将采用以上方式来计算IDF值。

第三步：计算TFIDF

最后，根据计算得到的TF和IDF值便可以计算TFIDF值。同时，对于数据集中的每个词都能计算并得到对应的TFIDF值，再将所有的值组合成一个矩阵便可得到文本的向量化表示。

现在假设有以下4个样本（每个样本为列表中的一个元素）：

1 corpus = ['this is the first document',2           'this document is the second document',3           'and this is the third one',4           'is this the first document']

同时，其对应的词表如下：

1 vocabulary = ['this', 'document', 'first', 'is', 'second', 'the', 'and', 'one']

1. 统计词频

首先，根据已知的样本和词表，可以得到如下所示的一个词频统计矩阵：

1 [[11110100]2  [12011100]3  [10010111]4  [11110100]]

其中矩阵中的每一行表示对应样本中各个词在词表中出现的次数。例如第1行中的前4个1表示词表中的前4个词均在样本this is the first document中出现，第5个0表示词表中的second并没有在第1个样本中出现，第6个1表示词表中的the出现在第1个样本中，最后两个0表示词表中and和one这两个词也没有出现在第1个样本中。词频矩阵中的其他3行同理。

2. 计算逆文档频率

由式(6-3)可知，对于词表中的每个词，根据其在整个样本中的出现情况都可以计算并得到一个IDF值，因此，对于整个词表来讲，可以计算并得到如下所示的一个IDF向量：

1 [1.   1.223   1.510   1.   1.916   1.   1.916   1.916]

例如对于单词document来讲它出现在3个样本中，因此其计算过程为

3. 计算TFIDF

在计算并得到样本中每个词的词频，以及词表中每个词的IDF值后，便可以根据式(6-4)计算并得到样本中每个词的TFIDF值，最终得到如下所示的TFIDF权重矩阵：

1 [[1.    1.223    1.510     1.     0.       1.    0.       0.    ]2  [1.    2.446    0.        1.     1.916    1.    0.       0.    ]3  [1.    0.       0.        1.     0.       1.    1.916    1.916 ]4  [1.    1.223    1.510     1.     0.       1.    0.       0.    ]]

可以发现，在TFIDF中，稀有且在文档中频繁出现的词会被赋予更高权重，而常见词会被弱化。

因此，TF-IDF 的优点在于：

① 可以突出关键字，减弱无意义的高频词。

② 在文档分类、信息检索等任务中效果显著。

缺点在于：

① 向量仍是静态表示，不能区分词的多义性。

② 仅反映统计关系，不包含深层语义。

4.小结

传统统计方法是 Embedding 的起点，从最简单的 One-Hot，到考虑词频的词袋模型，再到引入权重的 TF-IDF，每一步都是在尝试让文字数字化的表示更“聪明”：

方法	特征	优点	缺点
One-Hot	唯一标识词	简单直观	高维稀疏、无语义信息
词袋模型	统计词频	反映词在文档中的重要性	忽略顺序、高频词干扰
TF-IDF	词频 × 逆文档频率	突出关键字	静态表示、无上下文语义

它们虽简单，但奠定了自然语言处理的基础，也为后来基于神经网络的 静态和动态词向量 打下了基础。

最后

为什么要学AI大模型

当下，⼈⼯智能市场迎来了爆发期，并逐渐进⼊以⼈⼯通⽤智能（AGI）为主导的新时代。企业纷纷官宣“ AI+ ”战略，为新兴技术⼈才创造丰富的就业机会，⼈才缺⼝将达 400 万！

DeepSeek问世以来，生成式AI和大模型技术爆发式增长，让很多岗位重新成了炙手可热的新星，岗位薪资远超很多后端岗位，在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合，飞速发展，成为炙手可热的新风口，企业非常需要了解AI、懂AI、会用AI的员工，纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型，后台也经常会有小伙伴咨询学习路线和学习资料，我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料，这些学习资料不仅深入浅出，而且非常实用，让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入，精准学习显得尤为重要。一份系统的技术路线图，不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点，还能提供一条高效、有序的学习路径。

但知道是一回事，做又是另一回事，初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性，在这基础上，找到高质量的学习资源，不浪费时间、不走弯路，又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式，可以更直观地展示过程，能有效提升学习兴趣和理解力，是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

海量AI大模型必读的经典书籍（PDF）

阅读AI大模型经典书籍可以帮助读者提高技术水平，开拓视野，掌握核心技术，提高解决问题的能力，同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说，阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告（实时更新）

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作，下面这些面试题都是总结当前最新、最热、最高频的面试题，并且每道题都有详细的答案，面试前刷完这套面试题资料，小小offer，不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

快讯｜复旦发布全球首篇WAM系统性综述366篇论文绘制技术版图，飞捷科思自研可微分物理引擎Fysics指标超8B模型，维泛智能类脑芯片BiGPU融合ANN与SNN，Sim2Real实证：空间特征泛化远

脑启社区

EM-Core自动驾驶类脑世界模型——全域客观认知底座（V1.0 正式版）

本文档为 EM-Core 自动驾驶认知系统的核心认知底座规范，是 ECC 认知大脑开展推理、预判、决策的**唯一客观依据**。本模型与 MLNF-Mem 记忆中枢完全物理解耦，作为漏斗外侧独立挂载的外置模块（ad-44）运行，仅通过 `WM_QUERY` 标准消息向 ECC-01 情境解析模块和 ECC-03 因果推理模块提供风险向量与属性查询服务，不参与记忆晋升、遗忘或行为决策。适用于全场景自动