DeepSeek-R1:内部原理简析
DeepSeek-R1是由中国人工智能公司DeepSeek开发的开源推理模型,能够处理需要逻辑推理、数学问题求解和实时决策的任务。与传统的大型语言模型(LLMs)相比,DeepSeek-R1和OpenAI的o1等推理模型的独特之处在于它们能够展示得出结论的过程。如上图所示,使用DeepSeek-R1时,你可以看到它对提示词进行推理的步骤,这使得理解和必要时质疑其输出变得更加容易。这一能力使推理模型
目录

本周,DeepSeek-R1成为了头条新闻。因此,在这篇文章中,让我们深入了解DeepSeek-R1模型的本质及其内部工作原理。
首先,什么是DeepSeek-R1?
DeepSeek-R1是由中国人工智能公司DeepSeek开发的开源推理模型,能够处理需要逻辑推理、数学问题求解和实时决策的任务。
与传统的大型语言模型(LLMs)相比,DeepSeek-R1和OpenAI的o1等推理模型的独特之处在于它们能够展示得出结论的过程。
如上图所示,使用DeepSeek-R1时,你可以看到它对提示词进行推理的步骤,这使得理解和必要时质疑其输出变得更加容易。这一能力使推理模型在需要可解释结果的领域(如研究或复杂决策)中具有优势。
此外,该模型通过展示强化学习(RL)可以提高推理能力,挑战了行业对监督微调(SFT)的依赖。但是,除了我上面提到的内容,是什么让它革命性的呢?
-
自主技能涌现: 与需要人工策划推理示例的GPT-4或Claude 3.5 Sonnet不同,
R1-Zero通过纯RL开发了自我验证和多步规划等技能。 -
成本: 蒸馏后的7B模型以1/100的训练成本超越了GPT-4o。
-
开源: 完整发布模型权重和训练代码。
技术架构:
基础模型:
它建立在DeepSeek-V3-Base模型之上,这是一个具有671B参数的混合专家模型(MoE = 集成多个专门模型或"专家"以更有效地解决复杂问题),具有以下特点:
-
16个专家网络: 每个都是专门针对数学、代码、逻辑等领域的子模型
-
动态激活: 通过学习路由,每个token激活37B参数
-
预训练: 跨52种语言和技术领域的4.8T(是的,万亿)个token,包括STEM论文、Github仓库等
R1变体:
| 模型 | 参数 | 训练方法 | 主要创新 |
|---|---|---|---|
| R1-Zero | 671B MoE | 纯RL(无SFT) | 自主推理能力发现 |
| R1 | 671B MoE | 多阶段SFT+RL | 人类对齐的思维链生成 |
| R1-Distill | 1.5B–70B | 基于R1输出的SFT | 成本效益高的部署 |
DeepSeek内部原理深度解析:
1. 核心强化学习:
DeepSeek-R1最具突破性的特征是依靠强化学习(RL)来发展推理能力。与依赖人工策划示例进行监督微调(SFT)的传统LLMs不同,DeepSeek-R1使用RL自主发现推理模式。其工作原理如下:
A. 群体相对策略优化(GRPO)
这是一个无评论家的RL框架,与近端策略优化(PPO)相比,计算成本降低了40%。 该算法的工作方式是:
-
*群体采样*: 对于每个提示,模型使用当前策略生成G = 16个响应。这些响应形成一个群体,随后用于计算奖励和优势。
-
*奖励归一化*: 根据准确性、格式以及语言一致性为群体中的每个响应分配奖励,并计算优势Ai。这种归一化通过减少群体统计数据的方差来帮助稳定训练。
-
策略更新*: 在约束KL散度的同时最大化优势。(Kullback-Leibler (KL)散度是一种统计度量,用于衡量两个概率分布之间的差异*)。在下面的等式中,β=0.01控制KL惩罚的强度,确保策略不会偏离参考太远。
B. 混合奖励工程:
这是一个三层奖励系统,用于防止奖励黑客。(奖励黑客发生在强化学习(RL)代理利用奖励函数中的缺陷或模糊性来获得高奖励,而不是真正学习或完成预期任务时。奖励黑客的存在是因为RL环境通常是不完美的,而且准确指定奖励函数本质上是具有挑战性的。)
| 奖励类型 | 计算方法 | 权重 (λ) |
|---|---|---|
| 准确性 (r_acc) | 二元(如果最终答案正确则为1) | 1.0 |
| 格式 (r_fmt) | 与<think>/<answer>模板的余弦相似度 | 0.3 |
| 语言 (r_lang) | 目标语言中的token百分比 | 0.2 |
总奖励: r_total = r_acc + λ1r_fmt + λ2r_lang
2. 冷启动监督微调(SFT):
在应用RL之前,DeepSeek-R1经历了一个冷启动SFT阶段,这有助于为模型植入基本的推理模式。这个阶段包括:
A. 精选数据集
-
手动精选约1,000个高质量的思维链(CoT)示例。
-
每个示例都遵循严格的XML风格模板:
B. 模板强制:
-
对模型进行微调,使其生成
<think>/<answer>格式的响应。 -
这确保了推理过程的结构化和可解释性。
3. 拒绝采样以获取高质量数据:
在RL过程之后,DeepSeek-R1通过拒绝采样生成60万个高质量推理样本。其工作方式如下:
-
样本生成
-
RL模型为每个提示生成多个响应。
-
只保留通过基于规则检查的响应。
-
-
语义过滤
-
丢弃语义连贯性低或推理不正确的响应。
-
-
最终数据集
-
过滤后的数据集用于进一步微调和蒸馏。
-
4. 蒸馏到较小模型
DeepSeek-R1的推理能力被蒸馏到较小的模型(1.5B–70B参数)中,以实现成本效益高的部署。蒸馏过程包括:
-
数据集创建
-
从RL训练的模型生成80万个样本。
-
这些样本包括推理(60万)和一般任务(20万)。
-
-
微调
-
较小的模型(如Qwen-7B, Llama-70B)在蒸馏数据集上进行微调。
-
蒸馏过程中不应用RL,这使得计算效率更高。
-
-
性能
-
蒸馏后的7B模型在AIME 2024上达到55.5% pass@1,以较低成本超越了GPT-4o(9.3%)。
-
性能分析: 基准测试
数学推理
| 基准测试 | R1 | R1-Zero | GPT-40 | 人类专家 |
|---|---|---|---|---|
| AIME 2024 (pass@1) | 79.8% | 71.0% | 9.3% | 85% |
| MATH-500 (pass@1) | 97.3% | 95.9% | 74.6% | 98% |
| IMO问题形式化 | 81% | N/A | 22% | 89% |
关键洞察: R1通过以下方式在奥林匹克级问题上达到接近人类的表现:
-
步骤复用: 在相似问题中重用部分解决方案
-
符号-统计融合: 结合神经直觉和代数简化
编码与软件工程
| 任务 | R1 | GPT-40 | SWE人类 |
|---|---|---|---|
| LiveCodeBench (pass@1) | 65.9% | 32.9% | 72% |
| Codeforces Elo | 2029 | 759 | 2100 (95百分位) |
| SWE-Bench 已解决 | 49.2% | 38.8% | 58% |
突破:
-
调试链: 自动生成测试用例以验证代码补丁
-
跨语言迁移: 解决Python问题然后将解决方案移植到Rust
更多内容,点击顶部绑定资源下载。
更多推荐







所有评论(0)