目录

首先,什么是DeepSeek-R1?

技术架构:

基础模型:

R1变体:

DeepSeek内部原理深度解析:

1. 核心强化学习:

A. 群体相对策略优化(GRPO)

B. 混合奖励工程:

2. 冷启动监督微调(SFT):

A. 精选数据集

B. 模板强制:

3. 拒绝采样以获取高质量数据:

4. 蒸馏到较小模型

性能分析: 基准测试

数学推理

编码与软件工程


这个开源AI碾压一切 - DeepSeek R1 - YouTube

本周,DeepSeek-R1成为了头条新闻。因此,在这篇文章中,让我们深入了解DeepSeek-R1模型的本质及其内部工作原理。

首先,什么是DeepSeek-R1?

DeepSeek-R1是由中国人工智能公司DeepSeek开发的开源推理模型,能够处理需要逻辑推理、数学问题求解和实时决策的任务。

与传统的大型语言模型(LLMs)相比,DeepSeek-R1和OpenAI的o1等推理模型的独特之处在于它们能够展示得出结论的过程。

蝙蝠侠 DeepSeek

如上图所示,使用DeepSeek-R1时,你可以看到它对提示词进行推理的步骤,这使得理解和必要时质疑其输出变得更加容易。这一能力使推理模型在需要可解释结果的领域(如研究或复杂决策)中具有优势。

此外,该模型通过展示强化学习(RL)可以提高推理能力,挑战了行业对监督微调(SFT)的依赖。但是,除了我上面提到的内容,是什么让它革命性的呢?

  • 自主技能涌现: 与需要人工策划推理示例的GPT-4或Claude 3.5 Sonnet不同,R1-Zero通过纯RL开发了自我验证和多步规划等技能。

  • 成本: 蒸馏后的7B模型以1/100的训练成本超越了GPT-4o

  • 开源: 完整发布模型权重和训练代码。

技术架构:

基础模型:

它建立在DeepSeek-V3-Base模型之上,这是一个具有671B参数的混合专家模型(MoE = 集成多个专门模型或"专家"以更有效地解决复杂问题),具有以下特点:

  • 16个专家网络: 每个都是专门针对数学、代码、逻辑等领域的子模型

  • 动态激活: 通过学习路由,每个token激活37B参数

  • 预训练: 跨52种语言和技术领域的4.8T(是的,万亿)个token,包括STEM论文、Github仓库等

R1变体:

模型 参数 训练方法 主要创新
R1-Zero 671B MoE 纯RL(无SFT) 自主推理能力发现
R1 671B MoE 多阶段SFT+RL 人类对齐的思维链生成
R1-Distill 1.5B–70B 基于R1输出的SFT 成本效益高的部署

DeepSeek内部原理深度解析:

1. 核心强化学习:

DeepSeek-R1最具突破性的特征是依靠强化学习(RL)来发展推理能力。与依赖人工策划示例进行监督微调(SFT)的传统LLMs不同,DeepSeek-R1使用RL自主发现推理模式。其工作原理如下:

A. 群体相对策略优化(GRPO)

这是一个无评论家的RL框架,与近端策略优化(PPO)相比,计算成本降低了40%。 该算法的工作方式是:

  1. *群体采样*: 对于每个提示,模型使用当前策略生成G = 16个响应。这些响应形成一个群体,随后用于计算奖励和优势。

  2. *奖励归一化*: 根据准确性、格式以及语言一致性为群体中的每个响应分配奖励,并计算优势Ai。这种归一化通过减少群体统计数据的方差来帮助稳定训练。

  3. 策略更新*: 在约束KL散度的同时最大化优势。(Kullback-Leibler (KL)散度是一种统计度量,用于衡量两个概率分布之间的差异*)。在下面的等式中,β=0.01控制KL惩罚的强度,确保策略不会偏离参考太远。

手写方程

B. 混合奖励工程:

这是一个三层奖励系统,用于防止奖励黑客。(奖励黑客发生在强化学习(RL)代理利用奖励函数中的缺陷或模糊性来获得高奖励,而不是真正学习或完成预期任务时。奖励黑客的存在是因为RL环境通常是不完美的,而且准确指定奖励函数本质上是具有挑战性的。)

奖励类型 计算方法 权重 (λ)
准确性 (r_acc) 二元(如果最终答案正确则为1) 1.0
格式 (r_fmt) 与<think>/<answer>模板的余弦相似度 0.3
语言 (r_lang) 目标语言中的token百分比 0.2

总奖励: r_total = r_acc + λ1r_fmt + λ2r_lang


2. 冷启动监督微调(SFT):

在应用RL之前,DeepSeek-R1经历了一个冷启动SFT阶段,这有助于为模型植入基本的推理模式。这个阶段包括:

A. 精选数据集
  • 手动精选约1,000个高质量的思维链(CoT)示例。

  • 每个示例都遵循严格的XML风格模板:

vim


B. 模板强制:
  • 对模型进行微调,使其生成<think>/<answer>格式的响应。

  • 这确保了推理过程的结构化和可解释性。

3. 拒绝采样以获取高质量数据:

在RL过程之后,DeepSeek-R1通过拒绝采样生成60万个高质量推理样本。其工作方式如下:

  1. 样本生成

    • RL模型为每个提示生成多个响应。

    • 只保留通过基于规则检查的响应。

  2. 语义过滤

    • 丢弃语义连贯性低或推理不正确的响应。

  3. 最终数据集

    • 过滤后的数据集用于进一步微调和蒸馏。


4. 蒸馏到较小模型

DeepSeek-R1的推理能力被蒸馏到较小的模型(1.5B–70B参数)中,以实现成本效益高的部署。蒸馏过程包括:

  1. 数据集创建

    • 从RL训练的模型生成80万个样本。

    • 这些样本包括推理(60万)和一般任务(20万)。

  2. 微调

    • 较小的模型(如Qwen-7B, Llama-70B)在蒸馏数据集上进行微调。

    • 蒸馏过程中不应用RL,这使得计算效率更高。

  3. 性能

    • 蒸馏后的7B模型在AIME 2024上达到55.5% pass@1,以较低成本超越了GPT-4o(9.3%)。


性能分析: 基准测试

数学推理

基准测试 R1 R1-Zero GPT-40 人类专家
AIME 2024 (pass@1) 79.8% 71.0% 9.3% 85%
MATH-500 (pass@1) 97.3% 95.9% 74.6% 98%
IMO问题形式化 81% N/A 22% 89%

关键洞察: R1通过以下方式在奥林匹克级问题上达到接近人类的表现:

  • 步骤复用: 在相似问题中重用部分解决方案

  • 符号-统计融合: 结合神经直觉和代数简化

编码与软件工程

任务 R1 GPT-40 SWE人类
LiveCodeBench (pass@1) 65.9% 32.9% 72%
Codeforces Elo 2029 759 2100 (95百分位)
SWE-Bench 已解决 49.2% 38.8% 58%

突破:

  • 调试链: 自动生成测试用例以验证代码补丁

  • 跨语言迁移: 解决Python问题然后将解决方案移植到Rust

理解DeepSeek R1: 强化学习如何重塑语言模型推理? • 科技探索者 🚀

更多内容,点击顶部绑定资源下载。

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐