DeepSeek-R1：内部原理简析

DeepSeek-R1是由中国人工智能公司DeepSeek开发的开源推理模型,能够处理需要逻辑推理、数学问题求解和实时决策的任务。与传统的大型语言模型(LLMs)相比,DeepSeek-R1和OpenAI的o1等推理模型的独特之处在于它们能够展示得出结论的过程。如上图所示,使用DeepSeek-R1时,你可以看到它对提示词进行推理的步骤,这使得理解和必要时质疑其输出变得更加容易。这一能力使推理模型

人世不易

1081人浏览 · 2025-02-19 12:11:42

人世不易 · 2025-02-19 12:11:42 发布

这个开源AI碾压一切 - DeepSeek R1 - YouTube

本周,DeepSeek-R1成为了头条新闻。因此,在这篇文章中,让我们深入了解DeepSeek-R1模型的本质及其内部工作原理。

首先,什么是DeepSeek-R1?

DeepSeek-R1是由中国人工智能公司DeepSeek开发的开源推理模型,能够处理需要逻辑推理、数学问题求解和实时决策的任务。

与传统的大型语言模型(LLMs)相比,DeepSeek-R1和OpenAI的o1等推理模型的独特之处在于它们能够展示得出结论的过程。

如上图所示,使用DeepSeek-R1时,你可以看到它对提示词进行推理的步骤,这使得理解和必要时质疑其输出变得更加容易。这一能力使推理模型在需要可解释结果的领域(如研究或复杂决策)中具有优势。

此外,该模型通过展示强化学习(RL)可以提高推理能力,挑战了行业对监督微调(SFT)的依赖。但是,除了我上面提到的内容,是什么让它革命性的呢?

自主技能涌现: 与需要人工策划推理示例的GPT-4或Claude 3.5 Sonnet不同,R1-Zero通过纯RL开发了自我验证和多步规划等技能。
成本: 蒸馏后的7B模型以1/100的训练成本超越了GPT-4o。
开源: 完整发布模型权重和训练代码。

技术架构:

基础模型:

它建立在DeepSeek-V3-Base模型之上,这是一个具有671B参数的混合专家模型(MoE = 集成多个专门模型或"专家"以更有效地解决复杂问题),具有以下特点:

16个专家网络: 每个都是专门针对数学、代码、逻辑等领域的子模型
动态激活: 通过学习路由,每个token激活37B参数
预训练: 跨52种语言和技术领域的4.8T(是的,万亿)个token,包括STEM论文、Github仓库等

R1变体:

模型	参数	训练方法	主要创新
R1-Zero	671B MoE	纯RL(无SFT)	自主推理能力发现
R1	671B MoE	多阶段SFT+RL	人类对齐的思维链生成
R1-Distill	1.5B–70B	基于R1输出的SFT	成本效益高的部署

DeepSeek内部原理深度解析:

1. 核心强化学习:

DeepSeek-R1最具突破性的特征是依靠强化学习(RL)来发展推理能力。与依赖人工策划示例进行监督微调(SFT)的传统LLMs不同,DeepSeek-R1使用RL自主发现推理模式。其工作原理如下:

A. 群体相对策略优化(GRPO)

这是一个无评论家的RL框架,与近端策略优化(PPO)相比,计算成本降低了40%。该算法的工作方式是:

*群体采样*: 对于每个提示,模型使用当前策略生成G = 16个响应。这些响应形成一个群体,随后用于计算奖励和优势。
*奖励归一化*: 根据准确性、格式以及语言一致性为群体中的每个响应分配奖励,并计算优势Ai。这种归一化通过减少群体统计数据的方差来帮助稳定训练。
策略更新*: 在约束KL散度的同时最大化优势。(Kullback-Leibler (KL)散度是一种统计度量,用于衡量两个概率分布之间的差异*)。在下面的等式中,β=0.01控制KL惩罚的强度,确保策略不会偏离参考太远。

B. 混合奖励工程:

这是一个三层奖励系统,用于防止奖励黑客。(奖励黑客发生在强化学习(RL)代理利用奖励函数中的缺陷或模糊性来获得高奖励,而不是真正学习或完成预期任务时。奖励黑客的存在是因为RL环境通常是不完美的,而且准确指定奖励函数本质上是具有挑战性的。)

奖励类型	计算方法	权重 (λ)
准确性 (r_acc)	二元(如果最终答案正确则为1)	1.0
格式 (r_fmt)	与<think>/<answer>模板的余弦相似度	0.3
语言 (r_lang)	目标语言中的token百分比	0.2