大模型中的Embedding是指什么？Embedding全指南：概念、原理及应用案例

Embedding是大模型的核心技术，将离散符号转化为连续向量，使机器能理解和处理多模态数据。其发展经历了从语言学理论到深度学习的演进：1954年Harris提出分布式语义理论，2013年Word2Vec实现词向量突破，2018年BERT实现动态嵌入。如今Embedding已扩展至图像、语音等领域。文章还介绍了Embedding的基本原理、处理流程和简单实现示例，并提供了包含视频教程、学习路线等资

发菜君

1665人浏览 · 2025-08-14 11:55:12

发菜君 · 2025-08-14 11:55:12 发布

一、什么是Embedding

大模型（Large Language Models, LLMs）正以前所未有的速度改变着人类与机器交互的方式。而这些模型能够理解自然语言、生成创意内容，甚至进行复杂的推理决策，其背后就是一项核心技术——Embedding（嵌入）。它扮演着“神经中枢”的角色，像一座桥梁，将人类世界的离散符号（如文字、图像）转化为机器能够理解的连续向量，使大模型得以“思考”和“创作”。

最简单的理解，Embedding就是大模型自己的语言，任何需要跟大模型沟通的文字、图像、视频都需要转换为大模型所能理解的语言：Embedding，它才能处理。处理完成后，它再翻译成人类能理解的文字、图像等。这也是大模型最强大的核心能力之一，多模态处理能力。

二、Embedding的起源与发展：从语言学理论到深度学习革命

1. 语言学根基：分布式语义理论的提出

Embedding的思想最早可追溯至1954年，语言学家Zellig Harris提出的分布式语义理论。该理论认为，单词的语义由其上下文分布决定——“You shall know a word by the company it keeps”（通过单词的上下文可以推断其含义）。例如，“猫”和“狗”经常出现在“宠物”“喂食”等相似上下文中，因此它们的语义应相近。这一理论为通过统计词频捕捉语义关系奠定了基础。

2. 深度学习突破：Word2Vec的崛起

2013年，Mikolov团队提出的Word2Vec算法成为Embedding发展的里程碑。它通过神经网络训练词向量，将每个单词映射为一个低维稠密向量，使语义相似的词在向量空间中距离接近。例如，“国王 - 男人 + 女人 ≈ 女王”的向量运算，直观体现了语义关系的捕捉。Word2Vec的开源实现推动了工业界对词嵌入技术的重视，开启了NLP任务的新纪元。

3. 动态嵌入的兴起：BERT与GPT的上下文感知

静态词嵌入（如Word2Vec）无法解决一词多义问题（如“银行”既指金融机构，也指河岸）。2018年，BERT模型通过双向Transformer架构，生成上下文相关的Embedding，根据句子动态调整词向量。例如，在“我用苹果手机支付”和“我吃苹果”中，“苹果”的向量会因上下文不同而区分。这种动态嵌入显著提升了语义理解能力，成为大模型的标准配置。

4. 多模态扩展：图像、语音与图结构的嵌入

随着深度学习的发展，Embedding从文本扩展到多模态数据。例如：

图像嵌入：ResNet等模型将图像映射为向量，实现图像分类与检索。

语音嵌入：Wav2Vec 2.0将语音波形转换为语义向量，支持语音识别。

图嵌入：Node2Vec、DeepWalk等算法将社交网络中的节点（如用户）表示为向量，用于推荐系统。

三、常见的Embedding模型：

已经有很多成熟的Embedding模型，下面是一些比较常见的模型：

四、进一步解读

从核心上来说，嵌入（embedding）是一种映射，它将诸如单词、图像甚至整篇文档等离散对象映射到连续向量空间中的点。嵌入的主要目的是将非数值数据转换为神经网络能够处理的格式。

虽然词嵌入（word embeddings）是最常见的文本嵌入形式，但还存在针对句子、段落或整篇文档的嵌入。句子或段落嵌入是检索增强生成（retrieval-augmented generation）的流行选择。检索增强生成将生成（如生成文本）与检索（如搜索外部知识库）相结合，以便在生成文本时提取相关信息。

当选择的embeddings为二维的时候，就是将词汇投影到二维空间，这时可以进行可视化绘制，从而观测出最直观的现象：相似的术语会聚集在一起。

*如果词嵌入是二维的，将它们绘制成二维散点图以便可视化。在使用词嵌入技术（如Word2Vec）时，对应相似概念的单词在嵌入空间中通常会彼此靠近。例如，不同类型的动物在嵌入空间中彼此之间的距离，比它们与国家或城市之间的距离更近。词嵌入的维度可以从一维到数千维不等。更高的维度可能会捕捉到更细微的关系，但会牺牲计算效率。

*高维Embedding对可视化提出了挑战，因为感官感知和常见的图形表示本质上局限于三维或更少，这就是为什么在二维散点图中展示二维嵌入的原因。然而，在使用LLMs时，我们通常会使用维度高得多的嵌入。对于GPT-2和GPT-3，Embedding大小（通常称为模型隐藏状态的维度）因模型的具体变种和大小而异。这是性能与效率之间的权衡。最小的GPT-2模型（117M和125M参数）使用768维的嵌入大小来提供具体的示例。最大的GPT-3模型（175B参数）使用12288维的嵌入大小。

五、大模型处理的高阶流程

图中所示的步骤是使用Transformer作为语言翻译的典型流程图。

待翻译的文字；
在进入Encoder前的预处理；
Encoder对文字进行Encoding处理；
Embeddings就是Encoder的结果，是原来文字的向量化表示；
Decoder的部分输出，每次执行翻译一个单词；
Decoder一次仅生成一次翻译；
最后翻译的结果。

总结下来，就只有两个关键步骤：

使用Encoder将输入转换为Embeddings；
使用Decoder对Embeddings进行处理，并将Embeddings表示的结果转换为输出结果。

六、一个示例：将文本转换为Embedding

这里给出一个最简单的Embedding示例，不采用任何已有的Embedding模型框架。其主体流程如下：

*这里加入了位置Embeddings，这是LLM自注意力机制的关键点之一，这里不对此展开。

示例代码：

test_text="这是一段示例文字"print(test_text)import retest_text_arr = re.split(r'(\s)', test_text)print(test_text_arr)##进行TOKEN化test_text_arr = re.split(r'([,.，。\w]|\s)', test_text)print(test_text_arr) preprocessed = [item.strip() for item in test_text_arr if item.strip()]print(preprocessed)##将拆分后的单词进行去重all_words = sorted(set(preprocessed))vocab_size = len(all_words)    print(vocab_size)##为每一个Token生成一个唯一IDvocab = {token:integer for integer,token in enumerate(all_words)}for i, item in enumerate(vocab.items()): print(item)import torchfrom torch.utils.data import Dataset, DataLoader ##生成3维的embeddingoutput_dim = 3##使用制定的种子，确保可以复现torch.manual_seed(1111)embedding_layer = torch.nn.Embedding(vocab_size, output_dim)print(embedding_layer.weight)#取第2个Token的embedding，python是从0开始。前面每一个TokenID都可以作为下标从而Embedings矩阵中获取。print(embedding_layer(torch.tensor([1])))

七、AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以点扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！
在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

在这里插入图片描述
如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

快讯｜复旦发布全球首篇WAM系统性综述366篇论文绘制技术版图，飞捷科思自研可微分物理引擎Fysics指标超8B模型，维泛智能类脑芯片BiGPU融合ANN与SNN，Sim2Real实证：空间特征泛化远

脑启社区

EM-Core自动驾驶类脑世界模型——全域客观认知底座（V1.0 正式版）

本文档为 EM-Core 自动驾驶认知系统的核心认知底座规范，是 ECC 认知大脑开展推理、预判、决策的**唯一客观依据**。本模型与 MLNF-Mem 记忆中枢完全物理解耦，作为漏斗外侧独立挂载的外置模块（ad-44）运行，仅通过 `WM_QUERY` 标准消息向 ECC-01 情境解析模块和 ECC-03 因果推理模块提供风险向量与属性查询服务，不参与记忆晋升、遗忘或行为决策。适用于全场景自动