AI大模型核心原理（二）

AI人工智能、LLM、Transformer、NLP、MOE

suenpeng

1029人浏览 · 2025-03-18 17:19:00

suenpeng · 2025-03-18 17:19:00 发布

一、人工智能的兴起。

1、前序。

艾伦·麦席森·图灵；是计算机科学之父。
著名英国数学家、计算机科学家、逻辑学家和密码分析学家，被誉为计算机科学与人工智能之父。

阿兰・图灵（Alan Turing） 是译名（简称）。

1936年，向伦敦权威的数学杂志投一篇论文《论可计算数及其在判定问题上的应用》。
1950年，发表了一篇划时代的论文《计算机机械与智能》。

图灵机、图灵测试。
文中预言了如何创造出具有真正智能的机器的可能性？
有A、B、C 三个玩家，各自在独立空间中；让C来根据A B 的回答猜测A、B的性别。
A的工作是来迷惑C让C尽可能错误，
B的工作是来配合C让C尽可能正确；
现在将A换成电脑，如果回答能和之前一样，那么说明计算机A通过了图灵测试。
在这里插入图片描述
如果一台机器能够与人类展开对话（通过电传设备），且不能被参与测试的 30% 以上的人类裁判辨别出其机器身份，那么则称这台机器具有人类智能。

2、NLP发展。

NLP 是 自然语言处理（Natural Language Processing） 的缩写，是人工智能（AI）和计算机科学的一个重要分支，专注于让计算机理解、解释和生成人类语言。NLP 结合了语言学、计算机科学和机器学习的技术，旨在实现人机之间的自然语言交互。

2.1、NLP核心任务。

自然语言理解（NLU, Natural Language Understanding）：
- 让计算机理解人类语言的含义。
- 包括词法分析、句法分析、语义分析等。
- 例如：理解用户输入的问题或命令。
自然语言生成（NLG, Natural Language Generation）：
- 让计算机生成符合语法和语义的自然语言文本。
- 例如：自动生成新闻报道、对话回复或摘要。
语言翻译：
- 将一种语言自动翻译成另一种语言。
- 例如：谷歌翻译、DeepL 等工具。
文本分类：
- 对文本进行分类或打标签。
- 例如：垃圾邮件过滤、情感分析（判断文本是正面还是负面）。
信息抽取：
- 从文本中提取结构化信息。
- 例如：从新闻中提取人名、地点、时间等。
问答系统：
- 根据用户的问题提供准确的答案。
- 例如：智能客服、搜索引擎中的问答功能。
语音识别与合成：
- 将语音转换为文本（语音识别），或将文本转换为语音（语音合成）。
- 例如：语音助手（如 Siri、Alexa）。
文本摘要：
- 从长文本中提取关键信息，生成简短的摘要。
- 例如：新闻摘要、论文摘要。
对话系统：
- 实现人机对话。
- 例如：聊天机器人、虚拟助手。

2.2、NLP 的关键技术。

分词（Tokenization）：
- 将文本分割成单词或词组。
- 例如：中文分词工具（如 Jieba）。
词性标注（POS Tagging）：
- 为每个单词标注词性（如名词、动词、形容词等）。
句法分析（Parsing）：
- 分析句子的语法结构。
语义分析（Semantic Analysis）：
- 理解文本的含义，包括词义消歧、实体识别等。
机器学习与深度学习：
- 使用机器学习算法（如 SVM、随机森林）和深度学习模型（如 RNN、LSTM、Transformer）来处理语言数据。
预训练语言模型：
- 如 BERT、GPT 等，通过大规模数据预训练，提升 NLP 任务的效果。

2.3、NLP 发展。

基于规则模型
早期研究主要依赖规则定义的模型，这些规则需要大量人力精心设计，且随着规则增多，可能引发冲突。此外，模型无法回答规则库之外的问题。然而，由于规则由专业人士定义，在特定领域表现高效，能以20%的投入实现80%的效果。这类模型适用于解决重复性任务，如电商客服、电话机器人等。
基于统计方法的模型
在1980-1990这个年代，人们开始利用基于统计概率的模型。
基于马尔可夫假设，一个词语出现的概率，只和前面的n个词语有关而与更早的词语或者往后的词语都无关。
因此自然就产生了二元模型（一个词语出现的概率只和它前面的一次词语有关）和 n元模型（一个词语出现的概率跟它前n-1个词语有关），但是随着n的增大你所需要记录的概率分布就会呈现指数倍的增加，这导致了n不可能无限放大；放到模型上，就是说不能有一个很长的上下文，这个就是典型的长距离依赖问题；
基于神经网络的模型
基于神经网络的NLP模型，比如我们熟知的CNN（卷积神经网络） RNN（循环神经网络），神经网络启发于我们人脑的工作逻辑，其中著名的hebbian理论阐述了人脑神经元的形态。

RNN（循环神经网络）
一个神经元的输出信号可能是另一个神经元的输入信号，得易于这种结构，人脑在处理序列化和结构化数据时非常高效，RNN受这种结构的启发，在序列化的数据处理方面获得了很大的成就，一定程度上缓解了n 元模型长距离依赖的问题，但是并没有从根本上解决，同时它也带来了自己新的问题，那就是梯度消失-爆炸。

什么是梯度消失-爆炸?
梯度消失：误差信号在反向传播时越来越弱，导致模型学不会长期规律。简单来说，RNN的梯度消失就像“传话游戏越传越错”。
反向传播
反向传播（英语：Backpropagation，缩写为BP）是“误差反向传播”的简称，是一种与最优化方法（如梯度下降法）结合使用的，用来训练人工神经网络的常见方法。
举个例子：
正向传播：三个人在玩你画我猜游戏，第一个人描述物品信息传给第二个人，再由第二个人描述给第三个人，第三个人说出画的是什么？

反向传播：第三个人得知自己说和正确答案之间的误差，发现他们在传递时的问题差在哪里，向前面一个人说下次描述时可以怎么样更准确的传递信息，就这样一直向前一个人告知。

权重更新：在反向传播的过程中，三个人的默契一直在磨合，然后描述的更加准确。
关键原因：RNN记忆链条太长

RNN（循环神经网络）像一条不断延长的锁链，每个时间步（时刻）都在链子上加一节。比如处理句子 :
我昨天吃了一个苹果，RNN会把每个词依次连起来分析。
问题出在反向传播：
当计算梯度时，RNN需要从最后一个词（苹果）一路回传到第一个词（我）。这个过程就像传话游戏：
- 第5个人说：“苹果”（目标词）
- 第4个人告诉第3个人：“误差要调整0.1”
- 第3个人告诉第2个人：“误差变成0.1×0.9=0.09”
- 第2个人告诉第1个人：“误差变成0.09×0.9=0.081”
- …

如果每一步传递的误差都在衰减（比如乘以0.9），经过多步后，开头的词（如“我”）收到的误差几乎为0，导致它无法被正确调整。

LSTM（长短期记忆网络)

简单说就是 LSTM是给关键信息开了个绿色通道。现有的翻译软件和语音助手很多也是使用了这个技术。

LSTM结构是专门为解决RNN在学习长的的上下文信息出现的梯度消失、爆炸问题而设计的，结构中加入了内存块。这些模块可以看作是计算机中的内存芯片——每个模块包含几个循环连接的内存单元和三个门(输入、输出和遗忘，相当于写入、读取和重置)。信息的输入只能通过每个门与神经元进行互动，因此这些门学会智能地打开和关闭，以防止梯度爆炸或消失。
在这里插入图片描述
但是基于RNN的变种都会存在一个问题，由于模型在学习训练过程中，依赖文本的输入顺序，必须按时间步顺序计算，无法并行处理序列。

3、LLM成功背后。

算法的创新: Transformer架构: 大型语言模型的成功在很大程度上归功于Transformer架构的引入。这种架构通过自注意力机制(self-attention mechanism)能够有效地处理长距离依赖问题，使得模型能够更好地理解文本中的上下文关系。
预训练与微调: 大型语言模型通常采用预训练(pre-training)与微调(fine-tuning)的两阶段学习方法。预训练阶段在大规模语料库上进行，使得模型能够学习到广泛的语言知识；微调阶段则在特定任务上进行，使得模型能够针对特定任务进行优化。
多任务学习: 大型语言模型通常在多个任务上进行训练，这使得模型能够学习到更通用的语言表示，从而在多个任务上都能够取得较好的性能。
计算能力的提升: GPU与TPU: 大型语言模型的训练需要大量的计算资源，而GPU和TPU等高性能计算设备的出现和普及使得训练大规模模型成为可能。分布式训练: 随着模型规模的不断增大，单机的计算资源已经无法满足需求，因此分布式训练成为了必要的手段。分布式训练通过将计算任务分散到多个计算节点上，大大提高了训练的效率。
数据的可用性与规模性: 大规模语料库: 大型语言模型的训练需要大量的文本数据，而互联网上海量的文本数据为模型的训练提供了丰富的资源。数据质量: 数据的质量对于模型的性能至关重要。因此，在训练模型之前，需要对数据进行清理、预处理等操作，以提高数据的质量。
软件与工具的进步: 深度学习框架: TensorFlow、PyTorch等深度学习框架的出现和普及，为大型语言模型的研发提供了便利。这些框架提供了丰富的API和工具，使得模型的构建、训练和部署变得更加容易。
开源社区: 开源社区的发展为大型语言模型的研发提供了丰富的资源和协作平台。许多研究者和开发者通过开源社区共享自己的研究成果和代码，推动了大型语言模型技术的快速发展。

二、Transformer介绍。

1、引言。

Transformer由Google团队开发。
是一种深度学习模型架构，它是一种基于注意力机制的模型，用于处理序列到序列的任务，如机器翻译、语言建模等。Transformer模型的核心思想是完全基于自注意力机制（self-attention mechanism），它能够在输入序列中捕捉各个位置之间的依赖关系，从而在处理长序列时具有更好的性能。Transformer通过堆叠多个编码器和解码器层来构建整个模型，每个层都包含多头注意力机制和前馈神经网络。
于2017年6月发布论文《Attention is All You Need》在NIPS 发表，标志着NLP领域的重大进展。该架构不仅提升了机器翻译性能，还催生了BERT、GPT等预训练模型，推动了NLP领域的快速发展。Transformer架构的出现对于自然语言处理领域有着革命性的影响，成为了许多任务的标准模型。

2、为什么用Transformer？

在Transformer未出现以前，NLP领域应用基本都是以**RNN（循环神经网络）或LSTM（长短期记忆网络)**循环处理完成，一个token一个token输入到模型中。模型本身是一种顺序结构，包含token在序列中的位置信息。但是存在了一些问题：

会出现梯度消失现象，无法支持长时间序列。越靠后的token对结果的影响越大。
只能利用上文信息，无法获取下文信息。
循环网络逐个token输入，也就是句子有多长就要循环多少遍，计算的效率低。

3、大模型基本处理单元。

Token，是大模型中最基本的处理单元。
Token可以是一个单词（大约0.75个word）、一个词组、一个标点符号、一个字符等。

一条语句由诸多单词（Word）所组成，大模型在进行处理前需要先将语句拆解成一个个的基础单元，但这个基础单元并非单词，而被称为Token。不同模型可能有自己的切分方法，字符数目和Token数目不一定一一对应，例如在AI搜索开放平台中：
“苹果”对应1个Token
“测试用例”对应3个Token
“OpenSearch”对应2个Token

4、词嵌入（Word Embedding）。

就是把自然语言进行单词向量化，映射为高维向量，使得单词之间的语义关系，可以在向量空间中得以体现。同一语境下的词语往往拥有相近的语义。
简单来说：利用计算机方式逻辑；把自然语言进行单词向量化，得到向量化数据。这些向量化数据映射在（欧式空间）中形成距离概念。直线距离越近拥有相近的语义。

4.1、语意词语理解。

两个词经常在一起出现。
语义相关性——把这两个词的位置互换，相应的句子仍然是自然语言。

4.2、欧几里得空间。

欧几里得空间（欧式空间）是数学中的基本概念，尤其在几何学和线性代数中占据核心地位。
发明来源于古希腊数学家欧几里得（Euclid）；
词嵌入（Word Embedding），即把一个个word（词），embed（嵌入）高维的欧氏空间中。
在这里插入图片描述

4.3、词嵌入理论原理。

词嵌入就是要通过大量的文本数据学习，找到每一个词汇与高维空间的映射关系，表示该词汇在抽象空间中的位置，即它的坐标。所有的相对距离是保持不变的。这说明抽象空间中词汇的位置不可识别。
例如：酒店，宾馆，旅店
在这里插入图片描述

4.4、词与词之间存在不同关系。

人类通过学习和阅读掌握词语的含义，大模型同样是通过“阅读”大量的训练语料来学习和理解每个单词该如何使用。大模型逐条“阅读”所有的训练语料后，就能针对每一个单词建立一个“信息库”，知道哪些单词“彼此相熟”，哪些则“形同陌路”，模型在学习和理解一个单词的含义时有一个非常重要的视角，就是看看它周围常常出现的单词都有哪些。
单词之前的“远近亲疏”关系，是自然语言处理过程中非常重要的信息。
这并不难理解，人类的语言虽然看起来非常灵活，但这种关系也存在一定的统计规律：
有些字词的使用频率非常高，中文如“的/是/不/能/知道/可以”，英文如“the/to/and/of/in/for/”。
某些个字词经常一同出现从而具有特定的意义，如词组、成语、短语、谚语、俗语。
不过，字词之间的远近亲疏并不是固定的，一些场景下会显得“亲密”，一些场景下则变得“疏远”。
换句话说，同一个字词，当它周围出现的“小伙伴”不同的时候，可能就会具备不同的含义。如“鲜花”和“花钱”中的“花”，“朝廷”和“朝阳”中的“朝”，再比如“interest”同时有“兴趣”和“利息”的意思。这里说的场景就是“上下文（Context）”。

例如：猫坐在垫子上 The cat sat on the mat
在这里插入图片描述

4.5、词义的载体和表现特征。

这种字词间的远近亲疏关系，在大模型是如何进行表示的呢？这涉及两个非常重要的概念：
词向量（Word Vector）和词嵌入（Word Embedding）。
从语言学角度，一个词可以从多个维度进行表示，比如：

音系维度，即词的发音，如音素、音调、音重等
形态维度，即词的形式，如词根、词缀、词形等
语义维度，即词的含义，如概念、意义、情感等
语法维度，即词的语法结构，如主语、谓语、宾语等

苹果：水果、味道甜、水分充足、含维生素C [0.8 0.2 0.65 0.31]
词向量可以有多种表现形式，具体会因为采用不同的词向量模型、训练数据集和算法而有所不同。

在自然语言处理中广泛使用的是词嵌入向量（Word Embedding），简称词嵌入。学术点的解释是“通过将离散空间向连续空间映射后得到的词向量”。每个单词都可以被映射成一个向量，在映射的过程中，词嵌入向量可以捕捉和记录单词的语义信息，使得语义上相近的单词在向量空间中的距离也相近。 这种方法能够帮助模型更好的理解和处理自然语言数据。
在这里插入图片描述

可以说，词嵌入向量就是通过某种“最佳实践算法”得到的一种词向量。Word2Vec 是很多大模型都在使用的一种词嵌入向量，它由 Google 在 2013 年开源的 Word2Vec 就是一种流行的词嵌入向量，同时包含了生成词向量相关的工程工具。它利用大规模的语料库进行训练，学习单词之间的语义关系，然后生成每个单词的词向量，然后被用于文本分类、情感分析、机器翻译等各种自然语言处理任务。除了 Word2Vec，FastText、n-gram、GloVe 等也都是常见的词嵌入模型，它们的核心原理是类似的。

注意点: 词嵌入向量并不直接表示语义，而是词与词之间语义的相似度。因此，不必去纠结每个向量值到底代表什么意思。

5、自注意力（Self-Attention）。

Transformer的核心机制：自注意力（Self-Attention）
它不依赖额外输入的信息，即它只统计单词和其他单词之间的注意力（相关性）。可以让模型在处理序列数据时，动态关注不同位置的信息。

举个例子：
那只动物没有过马路，因为它太累了。
这个句子中的 “它” 指的是什么？是指 “动物” 还是 “马路”？对人来说，这是一个简单的问题，但是算法来说却不那么简单。当模型在处理“它”时，Self-Attention 机制使其能够将 “它” 和 “动物” 关联起来。
在这里插入图片描述

对每个输入词生成Q(query)、K(key)、V(value)向量。

2.计算每个Q与所有K的转置，缩放后得到注意力分数。
在这里插入图片描述

3.用softmax归一化分数，，即每一行的和都变为 1，得到权重。
在这里插入图片描述

4.用权重对V加权求和，得到每个词的输出。
在这里插入图片描述

6、多头注意力（Multi-Head Attention）。

Multi-Head Attention 是由多个 Self-Attention 组合形成的，下图是论文中 Multi-Head Attention 的结构图。
在这里插入图片描述
从上图可以看到 Multi-Head Attention 包含多个 Self-Attention 层，首先将输入X分别传递到 h 个不同的 Self-Attention 中，计算得到 h 个输出矩阵Z。下图是 h=8 时候的情况，此时会得到 8 个输出矩阵Z。换成人话来说就是我们矩阵图中的Wq，Wk和Wv分别初始化了多个进行训练；
在这里插入图片描述
得到 8 个输出矩阵 Z1 到 Z8 之后，Multi-Head Attention 将它们拼接在一起 (Concat)，然后传入一个Linear层，得到 Multi-Head Attention 最终的输出Z。

举例：

在一句话中注意力往往要从多个角度进行分析，比如 “大学生“是考研这个单词的主体，”除了“表示考研在这个句子中的角色，”上班、创业“都是考研这个词替代；因此我们需要从不同的角度去进行学习，防止它们过度的相似。

我们可以给不同的注意力头选择不同的训练任务，比如一些注意力头去做完形填空，一些注意力头去预测下一个句子，不同的注意力头之间的训练是并行的，基于Transformer架构可以高效的训练超大规模的模型。

Add & Norm 层的作用
1.残差连接：缓解梯度消失问题，保留原始信息。
2.层归一化：加速训练，提高模型稳定性和泛化能力。在Transformer中，Add & Norm 层是模型能够高效训练和表现优异的关键组件之一。
Feed Forward的作用是
Feed Forward 层（也称为前馈神经网络）的作用是对自注意力机制输出的特征进行进一步的非线性变换和特征提取；
1.**非线性特征变换：**引入非线性激活函数，增强模型的表达能力。
2.**特征增强：**对自注意力机制的输出进行进一步处理，提取更丰富的特征。
3.**独立处理每个位置：**专注于每个位置的特征优化。
4.**增加模型容量：**通过额外的参数提高模型的拟合能力。
Encoder加码器
Encoder block 接收输入矩阵 X(n×d) ，并输出一个矩阵 O(n×d) 。通过多个 Encoder block 叠加就可以组成 Encoder。
Decoder解码器
包含两个 Multi-Head Attention 层。
第一个 Multi-Head Attention 层采用了 Masked 操作。通过 Masked 操作可以防止第 i 个单词知道 i+1 个单词之后的信息。
第二个 Multi-Head Attention 层的K, V矩阵使用 Encoder 的编码信息矩阵C进行计算，而Q使用上一Decoder block 的输出计算。这样做的好处是在 Decoder 的时候，每一位单词都可以利用到 Encoder 所有单词的信息 (这些信息无需 Mask)。
最后有一个 Softmax 层计算下一个翻译单词的概率。

三、Transformer核心。

1、宏观介绍。

Transformer可以看成是一个黑箱操作的序列到序列（seq2seq）模型，输入是单词/字母/图像特征序列，输出是另外一个序列。一个训练好的Transformer模型如下图所示：
在这里插入图片描述
在机器翻译中，就是输入一种语言(一连串单词)，经Transformer输出另一种语言(一连串单词)。

2、Transformer编码器与解码器。

在Transformer 的整体结构，左图Encoder和右图Decoder。
在这里插入图片描述

Transformer 由 Encoder 和 Decoder 两个部分组成，Encoder 和 Decoder 都包含 6 个块。
Transformer 的工作流程大体如下：

**第一步：**获取输入句子的每一个单词的表示向量 X，X由单词的 Embedding（Embedding就是从原始数据提取出来的Feature）和单词位置的 Embedding 相加得到。即Transformer 中单词的输入表示的x由单词 Embedding 和位置 Embedding （Positional Encoding）相加得到。
在这里插入图片描述
第二步： 将得到的单词表示向量矩阵 (如上图所示，每一行是一个单词的表示 x) 传入 Encoder 中，经过 6 个 Encoder block 后可以得到句子所有单词的编码信息矩阵 C，如下图。。每一个 Encoder block 输出的矩阵维度与输入完全一致。
在这里插入图片描述

第三步： 将 Encoder 输出的编码信息矩阵 C传递到 Decoder(解码器) 中，Decoder 依次会根据当前翻译过的单词 1~ i 翻译下一个单词 i+1，如下图所示。在使用的过程中，翻译到单词 i+1 的时候需要通过 Mask (掩盖) 操作遮盖住 i+1 之后的单词。
在这里插入图片描述

上图 Decoder 接收了 Encoder 的编码矩阵 C，然后首先输入一个翻译开始符 “”，预测第一个单词 “I”；然后输入翻译开始符 “” 和单词 “I”，预测单词 “have”，以此类推。这是 Transformer 使用时候的大致流程。

3、Transformer架构。

在这里插入图片描述
Decoder解码器内部

在这里插入图片描述

4、DeepSeek架构的特点。

DeepSeek-V3、V2.5 版本都用了MoE （Mixture of Experts：MoE）架构,即混合专家模型。与Transformer 架构有很明显的区别。DeepSeek-V3 版本总参数量高达 6710 亿(671B)，可每次计算激活的参数量，也就是真正参与到计算里的参数，只有 370 亿，是总参数量的5.5%。但Transformer的模型就不一样了，它们每次计算激活的参数量，就是整个模型的参数量，没有 “打折”。
在这里插入图片描述
在 MoE 系统中，传统 Transformer 模型中的每个前馈网络 (FFN) 层替换为 MoE 层，其中 MoE 层由两个核心部分组成: 一个门控网络和若干数量的专家网络。