集智俱乐部 09-18
Nature封面文章: DeepSeek-R1 通过强化学习激励的LLM推理
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

导语

就在刚刚,一篇题目为:《DeepSeek-R1 通过强化学习激励大型语言模型进行推理》(DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning)的文章登上了Nature,而且还是封面文章。

关键词:LLM推理、强化学习、规则化奖励

JK丨作者

张倩丨编辑

这篇文章的作者人数,竟然达到了将近200人,真可谓集体智慧之作。在这个长长的作者列表中,你能找到梁文锋的名字吗?

论文题目:DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

论文地址:https://www.nature.com/articles/s41586-025-09422-z

为了更好地了解本文内容,我们翻译了全文文章,并配以关键概念的说明。

摘要

通用推理一直是人工智能(AI)领域长期而艰巨的挑战。近年来,以大型语言模型(LLMs)和思维链(CoT)提示为代表的突破,在基础推理任务上取得了显著成功。然而,这种成功在很大程度上依赖于大量人工标注的示范数据,而且现有模型的能力对于更复杂的问题仍显不足。

本文表明,我们可以通过纯强化学习(RL)来激励LLM的推理能力,从而产生无需人工标注的推理轨迹。本文所提出的RL框架促进了高级推理模式的涌现式发展,例如自我反思(Self reflection)、验证以及动态策略适应。

因此,训练后的模型在数学、编程竞赛和STEM领域等可验证的任务上取得了更优的性能,超越了通过常规的基于人工示范的监督学习训练得到的同类模型。此外,这些大型模型所表现出的涌现推理模式还可以系统性地用于指导并提升小型模型的推理能力。

引言

推理能力作为人类智能的基石,使我们能够完成从数学问题求解到逻辑推断与编程等复杂的认知任务。人工智能的最新进展表明,当规模足够大时,LLM 会呈现出涌现行为,其中包括推理能力。然而,在预训练阶段获得这种能力通常需要耗费大量的计算资源。

与此同时,一条互补的研究方向表明,可以通过 CoT(思维链)提示有效增强 LLM。该技术要么提供精心设计的少量示例,要么使用诸如"Let’s think step by step(让我们一步一步想)"这类极简提示,使模型能够生成中间推理步骤,从而显著提升其在复杂任务上的表现。同样地,在后训练阶段让模型学习高质量的多步推理轨迹时,也观察到了进一步的性能提升。

尽管这些方法行之有效,但也存在显著局限。它们对人工标注推理轨迹的依赖会降低可扩展性并引入认知偏差。此外,将模型限定为复现人类思维过程,天然会用人类提供的示例为其能力设限,从而阻碍对更优、非人类式推理路径的探索。

为解决这些问题,我们希望在强化学习(RL)框架中,通过自我进化来挖掘 LLM 在推理方面的潜力,并尽量减少对人工标注的依赖。具体而言,我们基于 DeepSeek-V3-Base,采用组相对策略优化(Group Relative Policy Optimization,简称GRPO)作为我们的 RL 框架。

奖励信号仅依据最终预测与真实答案的正确性来设定,而不对推理过程本身施加任何约束。值得注意的是,我们绕过了常规的在 RL 训练前进行的监督微调( Supervised Fine-Tuning,简称SFT)阶段。之所以做出这一设计选择,是因为我们假设由人定义的推理模式可能会限制模型的探索;相反,不受限制的 RL 训练更能激励 LLM 涌现新的推理能力。

通过这一过程(详细内容见下一节),我们的模型(称为 DeepSeek-R1-Zero)自然地发展出了多样而复杂的推理行为。为解决推理问题,模型表现出生成更长回答的倾向,并在每个回答中融入验证、自我反思以及对替代方案的探索。尽管我们并未明确教授模型如何进行推理,它仍然通过 RL 成功学习到了更优的推理策略。

尽管 DeepSeek‑R1‑Zero 展示了出色的推理能力,但它也面临一些挑战,例如可读性较差以及语言混用,偶尔会在一次 CoT 回答中同时出现英文和中文。此外,DeepSeek‑R1‑Zero 的基于规则的强化学习训练阶段过于专注于推理任务,导致在写作和开放领域问答等更广泛领域的表现受限。

为了解决这些问题,我们提出了 DeepSeek‑R1,这是一种通过多阶段学习框架训练的模型,该框架结合了拒绝采样、强化学习和监督微调,具体细节见"DeepSeek‑R1"一节。该训练流程使 DeepSeek‑R1 能够继承其前身 DeepSeek‑R1‑Zero 的推理能力,同时通过进一步的非推理数据,使模型行为与人类偏好保持一致。

为以更低的能耗让更多人能够使用强大的 AI,我们蒸馏了若干更小的模型并公开发布。这些蒸馏模型表现出强大的推理能力,超过了它们最初仅做指令微调的对应版本。

我们相信,这些指令微调后的蒸馏版本也将极大地惠及科研社区,为理解长链式思维推理模型的机制、以及推动更强大推理模型的发展提供宝贵资源。我们将按照"代码可用性"一节中的说明,向公众发布 DeepSeek‑R1‑Zero、DeepSeek‑R1、数据样本以及蒸馏模型。

DeepSeek‑R1‑Zero

为在大规模上实现对 DeepSeek‑R1‑Zero 的强化学习(RL),我们采用了高效的 RL 流水线。具体而言,我们使用 GRPO 作为我们的 RL 算法,详见"Methods"部分的"GRPO"。此外,我们采用基于规则的奖励系统来计算"准确性奖励"和"格式奖励",其详细方法在"Methods"部分的"Reward design"中给出。并且,我们的高性能 RL 基础设施在补充材料的第 2.1 节中进行了描述,以确保训练具有可扩展性与高效率。

相关词条DeepSeek-R1-Zero

https://wiki.swarma.org/index.php/DeepSeek-R1-Zero

什么是GRPO?

DeepSeek-R1-Zero模型使用了一种新型的强化学习算法,即组相对策略优化算法(Group Relative Policy Optimization, 简称GRPO),该算法是对经典的强化学习算法近端策略优化(Proximal Policy Optimization, PPO)的改进。二者最大的区别在于:PPO算法需要学习优化一个价值网络(Value Network)来充当评判者的决策来对生成的策略进行评估。但是,训练一个价值网络需要耗费大量内存,因此GRPO算法去掉了价值网络,并通过引入组相对奖励(Group Relative Reward)来优化策略,使得策略在组内相对表现更好,而不是仅仅依赖于绝对奖励。

为了更好地理解GRPO,我们绘制了传统的PPO算法与GRPO算法的对比图:

由该图可以清楚地看出,GRPO放弃了传统的PPO中的价值模型,转而从组分数中估计基线,显著减少了训练资源。

更具体地,我们在 DeepSeek‑V3 Base 上应用 RL 技术来训练 DeepSeek‑R1‑Zero。训练期间,我们设计了一个直观的模板,要求 DeepSeek‑R1‑Zero 先生成推理过程,再给出最终答案。提示模板如下所示。

"一段用户与助手之间的对话。用户提出一个问题,助手来解决。助手先在脑海中思考推理过程,然后向用户给出答案。推理过程和答案分别用 <think>...</think>和 <answer>...</answer>标签包裹,即:<think> reasoning process here </think><answer> answer here </answer>。User: prompt。Assistant:"

其中 prompt会在训练时替换为具体的推理问题。我们有意将约束限制在这一结构化格式上,避免任何与内容相关的偏置,以确保我们能够准确观察到模型在 RL 过程中的自然演进。

图 1a 展示了 DeepSeek‑R1‑Zero 在美国邀请数学考试(AIME)2024 基准上的训练全过程表现效果,其中 AIME 2024 的平均 pass@1 分数显著提升,从初始的 15.6% 跃升至 77.9%。此外,借助自一致性解码,模型性能还能进一步提升,准确率达到 86.7%。这一表现大幅超过了所有 AIME 人类参赛者的平均水平。

图 1:DeepSeek‑R1‑Zero 在整个训练过程中的准确率与输出长度。a,DeepSeek-R1‑Zero 在训练过程中的 AIME 准确率。AIME 以数学问题为输入、以数值为输出,其示例见扩展数据表 1。pass@1 和 cons@16 的说明见补充信息第 4.1 节。基线为 AIME 比赛中人类参赛者取得的平均分。b,DeepSeek-R1‑Zero 在强化学习(RL)过程中于训练集上的平均回复长度。DeepSeek-R1‑Zero 会自然地在更长思考时间下学习解决推理任务。注意,训练步(training step)指一次策略更新操作。

除数学竞赛外,如补充材料图 8 所示,DeepSeek‑R1‑Zero 在编程竞赛以及研究生水平的生物、物理和化学问题上也取得了显著成绩。这些结果凸显了强化学习(RL)在提升大型语言模型(LLM)推理能力方面的有效性。

除了在训练过程中推理能力逐步增强之外,DeepSeek‑R1‑Zero 还在强化学习(RL)训练中展现出自我进化的行为。如图 1b 所示,DeepSeek‑R1‑Zero 的思考时间在整个训练中稳步增长,这完全由其内在适应性驱动,而非外部改动。借助较长的思维链(CoT),模型持续精炼其推理,在每次回答中生成数百到数千个 token,以探索并改进其解决问题的策略。

思考时间的增长有助于复杂行为的自主演化。具体而言,DeepSeek‑R1‑Zero 越来越多地表现出高级推理策略,如反思式推理和对替代方案的系统性探索(见扩展数据图 1a),这显著提升了其在数学与编程等可验证任务上的表现。值得注意的是,在训练过程中,DeepSeek‑R1‑Zero 出现了一个"灵光一现"的时刻(见表 1):在反思阶段对"wait(等待)"一词的使用突然增加(见扩展数据图 1b)。这一时刻标志着推理模式的显著变化,并清晰展示了 DeepSeek‑R1‑Zero 的自我进化过程。

DeepSeek‑R1‑Zero 的自我进化凸显了强化学习(RL)的力量与魅力:与其明确教模型如何解决问题,我们只需提供合适的激励,模型便能自主发展出先进的问题求解策略。这提醒我们,RL 具有释放更高层次 LLM 能力的潜力,为未来更自主、更具适应性的模型铺平道路。

尽管 DeepSeek‑R1‑Zero 展现出强大的推理能力,但它也面临若干问题。由于 DeepSeek‑V3 Base 在多种语言(尤其是英文和中文)上训练,DeepSeek‑R1‑Zero 在可读性和语言混用方面表现欠佳。为解决这些问题,我们开发了 DeepSeek‑R1,其训练流水线如图 2 所示。

图 2:DeepSeek‑R1 的多阶段流水线。关于 DeepSeek‑V3 Base 和 DeepSeek‑V3 的详细背景见补充信息第 1.1 节。模型 DeepSeek‑R1 Dev1、Dev2 和 Dev3 表示该流水线中的中间检查点。

在初始阶段,我们收集了大量具备对话式、符合人类思维过程的冷启动数据,详细内容见补充材料第 2.3.2 节。

随后进行 RL 训练,并采用"第一阶段 RL 训练细节"的超参数设置;数据细节见补充材料第 2.3.1 节,用于提升模型在对话式思维过程与语言一致性方面的表现。

接着,我们再次应用拒绝采样并进行一次 SFT(监督微调)。此阶段将推理与非推理数据集一并纳入 SFT 过程,详见补充材料第 2.3.3 节,使模型不仅能在推理任务上表现优异,也能展现出高级写作能力。

为了进一步使模型与人类偏好对齐,我们设计了第二阶段的 RL,用于增强模型的有用性与无害性,同时持续打磨其推理能力。奖励细节见 Methods 中的"奖励设计"部分,第二阶段 RL 的超参数见 Methods 的"第二阶段 RL 训练细节"。

我们在以下基准上评估模型:MMLU、MMLU‑Redux、MMLU‑Pro、DROP、C‑Eval、IFEval、FRAMES、GPQA Diamond、SimpleQA、C‑SimpleQA、CLUEWSC、AlpacaEval 2.0(参考文献 22)、Arena‑Hard、SWE‑bench Verified、Aider‑Polyglot、LiveCodeBench(2024‑08—2025‑01)、Codeforces、中国高中数学竞赛(CNMO 2024)以及 AIME 2024(参考文献 29)。这些基准的详细信息见补充表 15—29。

表 2 总结了 DeepSeek‑R1 在图 2 所示的多个开发阶段中的表现。将 DeepSeek‑R1‑Zero 与 DeepSeek‑R1 Dev1 比较,在指令跟随方面有显著提升,这在 IF‑Eval 和 Arena‑Hard 基准上的更高得分中得到体现。然而,由于冷启动数据集规模有限,Dev1 的推理性能相比 DeepSeek‑R1‑Zero 出现一定下降,最明显的是在 AIME 基准上。相比之下,DeepSeek‑R1 Dev2 在需要高级推理技能的基准上表现出显著提升,包括聚焦于代码生成、数学问题求解和 STEM 相关任务的基准。针对通用任务的基准(如 AlpacaEval 2.0)仅显示出较小的改进。这些结果表明,以推理为导向的 RL 在影响用户偏好导向基准有限的情况下,仍能显著增强推理能力。

DeepSeek‑R1 Dev3 将推理与非推理数据集共同整合进 SFT 流水线,从而提升模型在推理与通用语言生成任务上的熟练度。与 Dev2 相比,DeepSeek‑R1 Dev3 在 AlpacaEval 2.0 和 Aider‑Polyglot 上取得了显著性能提升,这归因于我们引入了大规模非推理语料和代码工程类数据集。最后,在 DeepSeek‑R1 Dev3 上使用混合的推理聚焦数据与通用数据进行全面的 RL 训练,我们得到了最终的 DeepSeek‑R1。由于在此前阶段已进行了大量以推理为导向的 RL,模型在代码与数学基准上仅获得了小幅改进。最终版 DeepSeek‑R1 的主要提升体现在通用的指令跟随与用户偏好类基准上,其中 AlpacaEval 2.0 提升了 25%,Arena‑Hard 提升了 17%。

我们还在补充信息第 4.2 节将 DeepSeek‑R1 与其他模型进行对比。模型安全性评估见补充信息第 4.3 节。全面的评估分析见补充信息第 5 节,其中包括与 DeepSeek‑V3 的比较、在新测试集上的性能评估、按类别细分的数学能力,以及测试时间缩放行为的研究。补充信息第 6 节显示,强大的推理能力可以迁移到更小的模型上。

相关阅读:DeepSeek-R1

https://wiki.swarma.org/index.php/DeepSeek-R1

伦理与安全声明

随着 DeepSeek‑R1 推理能力的提升,我们深刻意识到潜在的伦理风险。比如,R1 可能遭受越狱攻击,从而生成危险内容(如爆炸物制造方案);而增强的推理能力也可能让模型给出在可操作性与可执行性上更强的规划方案。此外,公开发布的模型还容易被进一步微调,从而削弱其固有的安全防护。

在补充信息第 4.3 节中,我们从多个角度给出了一份全面的安全报告,包括:在开源与自建安全评测基准上的表现、跨多种语言与越狱攻击下的安全水平等。这些全面的安全分析得出结论:与其他先进模型相比,DeepSeek‑R1 模型的固有安全水平总体处于中等水平(可与 GPT‑4o(2024‑05‑13)相当)。此外,结合风险控制体系后,模型的安全等级可提升到更高标准。

结论、局限性与未来工作

我们提出了 DeepSeek‑R1‑Zero 和 DeepSeek‑R1,这两者依赖于大规模强化学习(RL)来激发模型的推理行为。我们的结果表明,预训练检查点本身就对复杂推理任务具有相当大的助力。我们认为,释放这种潜力的关键不在于大规模人工标注,而在于为 RL 提供困难的推理问题、可靠的验证器以及充足的计算资源。在 RL 过程中,诸如自我校验与反思等复杂的推理行为似乎都能够自然涌现。

即使 DeepSeek‑R1 在推理基准上取得了前沿结果,它仍然面临若干能力上的限制,具体如下所述。

结构化输出与工具使用

目前,DeepSeek‑R1 的结构化输出能力相较于现有模型仍不理想。此外,DeepSeek‑R1 不能使用诸如搜索引擎与计算器等工具来提升输出效果。不过,由于为结构化输出与工具使用搭建一个 RL 环境并不困难,我们相信这一问题将在下个版本中得到解决。

Token 效率

不同于传统的测试时计算扩展方法(如多数投票或蒙特卡罗树搜索 MCTS),DeepSeek‑R1 会在推理过程中根据问题的复杂度动态分配计算资源。具体而言,它在解决简单任务时使用更少的 token,而在处理复杂任务时会生成更多的 token。尽管如此,在 token利用效率方面仍有优化空间,因为在回答较为简单的问题时,我们仍可观察到过度推理(即"overthinking")的情况发生。

语言混用

DeepSeek‑R1 目前针对中文和英文进行了优化,这在处理其他语言的查询时可能会导致语言混用的问题。比如,当查询使用英语或中文以外的语言时,DeepSeek‑R1 可能会用英语进行推理并给出回答。我们计划在后续更新中解决这一限制。该限制可能与基础检查点有关:DeepSeek‑V3 Base 主要使用中文和英文,因此在推理中这两种语言的表现更好。

提示工程

在评测 DeepSeek‑R1 时,我们发现它对提示较为敏感。少样本提示往往会降低其性能。因此,我们建议用户在零样本设置下,直接、清晰地描述问题并指定输出格式,以获得最佳结果。

软件工程任务

由于评测时间较长会影响 RL 流程的效率,大规模 RL 目前尚未在软件工程任务上得到广泛应用。因此,DeepSeek‑R1 在软件工程基准上尚未显示出相对于 DeepSeek‑V3 的巨大提升空间。未来的版本将通过在软件工程数据上实施拒绝采样,或在 RL 过程中引入异步评测等方式来提升效率。

超越具体能力限制:纯 RL 方法本身的内在挑战:

奖励黑客(Reward hacking)

纯强化学习(RL)的成功依赖于可靠的奖励信号。本研究通过面向推理领域的基于规则的奖励模型来确保奖励的可靠性。然而,对于某些任务(如写作),这种可靠的奖励模型很难构建。如果奖励信号由模型而非预定义规则给出,随着训练推进,它更容易被"钻空子",这意味着策略模型可能会找到捷径来"黑"掉奖励模型。因此,对于那些无法通过可靠奖励模型进行有效评估的复杂任务,单纯扩大纯 RL 方法的规模仍是一项开放挑战。

在本工作中,对于无法获得可靠奖励信号的任务,DeepSeek‑R1 采用人工标注来构建监督数据,并仅进行数百步的 RL。我们希望未来能够获得更鲁棒的奖励模型,以解决此类问题。

随着像 DeepSeek‑R1 这样的纯 RL 方法的出现,未来在解决任何能被验证器有效评估的问题方面都蕴含巨大潜力,而不论其对人类而言有多复杂。配备此类先进 RL 技术的机器,有望在这些领域超越人类能力,其动力源于它们通过试错迭代来优化性能的能力。然而,对于那些难以构建可靠奖励模型的任务,仍然存在挑战。在这类情形下,缺乏稳健的反馈机制可能会减缓进展,这表明未来研究应致力于开发创新方法,以便为这些复杂、难以验证的问题定义并完善奖励结构。

此外,在推理过程中使用工具也展现出显著前景。无论是使用编译器或搜索引擎来检索或计算必要信息,还是在现实世界中使用生物或化学试剂来验证最终结果,这种工具增强型推理的融合都可能极大拓展机器驱动解决方案的适用范围与准确性。

相关阅读:DeepSeek R1

方法

GRPO

GRPO 是我们用于训练 DeepSeek‑R1‑Zero 和 DeepSeek‑R1 的强化学习(RL)算法。它最初被提出是为了简化训练流程并降低近端策略优化(PPO)的资源消耗,该方法在大语言模型的 RL 阶段被广泛采用。GRPO 的流程展示于扩展数据图 2 中。

对于每个问题 (q),GRPO 会从旧策略中采样一组输出 o1, o2, …, oG,随后通过最大化以下目标来优化策略模型 (πθ)。

其中,(πref) 是参考策略,ϵ和 β 为超参数,Ai 是优势项(advantage),其通过每组对应于各个输出的奖励 r1, r2, …, rG) 计算得到:

我们在补充信息第 1.3 节中给出了 GRPO 与 PPO 的对比。

奖励设计

奖励是训练信号的来源,决定了强化学习(RL)优化的方向。对于 DeepSeek‑R1‑Zero,我们使用基于规则的奖励,为数学、编程与逻辑推理等领域的数据提供精确反馈。对于 DeepSeek‑R1,我们在此基础上进一步扩展:对推理类数据采用基于规则的奖励,对通用数据采用基于模型的奖励,从而提升学习过程在不同领域间的适应性。

基于规则的奖励

我们的基于规则的奖励系统主要包含两类奖励:准确性奖励与格式奖励。

准确性奖励:评估回答是否正确。比如,对于具有确定性结果的数学题,要求模型按指定格式(例如在方框内)给出最终答案,以便进行可靠的基于规则的正确性校验。类似地,对于编程竞赛类提示词,可使用编译器依据一套预定义测试用例来评估模型的输出,从而对正确性生成客观反馈。

格式奖励:用特定的格式要求来补充准确性奖励机制。具体而言,模型被激励将其推理过程封装在指定标签内,特别是使用 <think>和 </think>。这样可以使模型的思考过程被清晰地呈现,增强可解释性,并便于后续分析。

基于模型的奖励与权重设置

我们将准确性奖励与格式奖励以相同权重进行组合。值得注意的是,我们避免在推理任务中使用神经奖励模型——无论是基于结果的还是基于过程的。做出这一决定的依据是我们观察到:在大规模 RL 中,神经奖励模型容易受到"奖励黑客"的影响。此外,重新训练这类模型需要大量计算资源,并会给训练流水线引入更多复杂性,从而使整体优化过程更加复杂。

基于模型的奖励

对于通用数据,我们采用奖励模型来捕捉人类在复杂且细微场景中的偏好。我们在 DeepSeek‑V3 的流水线上构建,并使用类似的偏好对与训练提示的分布。

针对"有用性(helpfulness)",我们只关注最终总结,确保评估强调回答对用户的用途与相关性,同时尽量减少对底层推理过程的干扰。

针对"无害性(harmlessness)",我们会评估模型的完整响应,包括推理过程与总结,以识别并缓解在生成过程中可能出现的任何潜在风险、偏见或有害内容。

有用性奖励模型(Helpful reward model)

为了训练有用性奖励模型,我们首先使用 DeepSeek‑V3 依据 Arena‑Hard 提示格式(见补充信息第 2.2 节)生成偏好对。每个偏好对由一个用户问题和两个候选答案组成。对于每个偏好对,我们向 DeepSeek‑V3 询问四次,并将回答随机指定为"回答 A"或"回答 B",以减少位置偏差。最终的偏好分数由这四次独立判断的平均值确定,仅保留分差 Δ 大于 1 的配对,以确保差异具有意义。

此外,为了最小化与长度相关的偏差,我们确保整个数据集中被选中和被拒绝的回答在长度上大体相当。总体而言,我们精选了 66,000 对数据用于训练奖励模型。该数据集中的提示均为非推理问题,来源于公开的开源数据集,或来自明确同意共享其数据以用于模型改进的用户。

我们的奖励模型架构与 DeepSeek‑R1 一致,并在此基础上增加了一个用于预测标量偏好分数的奖励头(reward head)。

有用性奖励模型在整个训练数据集上以单轮(epoch)方式训练,批大小为 256,学习率为 6×10-6。训练期间的最大序列长度设为 8192 个 token,而在奖励模型推理阶段不施加明确的长度限制。

安全性奖励模型

为评估并提升模型安全性,我们整理了一个包含 106,000 个提示的数据集,这些提示配有模型生成的回答,并依据预定义的安全指南被标注为"安全"或"不安全"。与有用性奖励模型中使用的成对损失(pairwise loss)不同,安全性奖励模型使用点式方法(pointwise methodology)来区分安全与不安全的回答。其训练超参数与有用性奖励模型相同。

对于通用查询,每个样本都会被归入安全数据集或有用性数据集之一。分配给每个查询的通用奖励 Rewardgeneral 与其所属数据集中定义的相应奖励一致。

训练细节

DeepSeek‑R1‑Zero 的训练细节

为了训练 DeepSeek‑R1‑Zero,我们将学习率设为 (3×10-6),将 KL(Kullback–Leibler)系数设为 0.001,采样温度在 rollout 时设为 1。对于每个问题,我们采样 16 个输出:在 8.2k 步之前的最大长度为 32,768 个 token,在 8.2k 步之后最大长度为 65,536 个 token。

由此,DeepSeek‑R1‑Zero 的性能与响应长度在第 8.2k 步出现显著跃升;训练总计进行到 10,400 步,对应约 1.6 个训练 epoch。每个训练步包含 32 个不同的问题,因此每步的训练批大小为 512。每 400 步,我们用最新的策略模型替换参考模型。为加速训练,每次 rollout 产生 8,192 个输出,随机划分为 16 个小批次,仅训练一个内部 epoch。

第一阶段 RL 的训练细节

在 RL 的第一阶段,我们将学习率设为 3×10-6,KL 系数为 0.001,GRPO 的裁剪比率 (ϵ) 设为 10,rollout 的采样温度为 1。对于每个问题,我们采样 16 个输出,最大长度为 32,768 个 token。每个训练步包含 32 个不同的问题,因此每步的训练批大小为 512。每 400 步,我们用最新的策略模型替换参考模型。为加速训练,每次 rollout 产生 8,192 个输出,随机划分为 16 个小批次,仅训练一个内部 epoch。另一方面,为了减轻在 RL 训练期间语言混用的问题,我们引入了语言一致性奖励,其计算方式是根据在 CoT 中目标语言词语所占的比例。

第二阶段 RL 训练细节与语言一致性奖励

虽然补充材料第 2.6 节中的消融实验显示,这种对齐会使模型性能略有下降,但该奖励符合人类偏好,使文本更易读。我们将语言一致性奖励直接加到最终奖励中,同时应用于推理类与非推理类数据。

请注意,裁剪比率(clip ratio)在训练中起着关键作用。数值较低会导致大量 token 的梯度被截断,从而降低模型性能;而数值较高则可能在训练中引发不稳定性。本阶段所用 RL 数据的细节见补充材料第 2.3 节。

第二阶段 RL 的训练细节

具体而言,我们使用奖励信号与多样化提示分布的组合来训练模型。对于推理数据,我们遵循 DeepSeek‑R1‑Zero 中描述的方法,使用基于规则的奖励来引导数学、编程与逻辑推理等领域的学习。在训练过程中我们观察到,当 RL 提示涉及多种语言时,CoT 常会出现语言混用。对于通用数据,我们使用奖励模型来引导训练。最终,融合多种奖励信号与多样的数据分布,使我们能够得到一个不仅在推理上表现出色、同时也优先考虑有用性与无害性的模型。

给定一批数据,奖励可表述为:

第二阶段的 RL 基本沿用了第一阶段的大多数参数,主要区别是将温度降低到 0.7,因为我们发现在该阶段使用更高温度会导致生成结果不连贯。该阶段共包含 1,700 个训练步,其中通用指令数据与基于偏好的奖励仅在最后 400 个训练步中引入。我们发现,使用基于模型的偏好奖励信号进行更多训练步可能会导致"奖励黑客"现象,相关内容记录于补充材料第 2.5 节。

数据可用性(Data availability)

我们在以下链接提供了用于拒绝采样与 RL 提示的数据样本:https://github.com/deepseek-ai/DeepSeek-R1(https://doi.org/10.5281/zenodo.15753193)。  关于我们完整数据生成方法的综合统计与细节,见补充材料第 2.3 节。

代码可用性(Code availability)

在 MIT 许可证下,DeepSeek‑R1‑Zero 与 DeepSeek‑R1 的训练权重可在此获取:https://github.com/deepseek-ai/DeepSeek-R1(https://doi.org/10.5281/zenodo.15753193)。  推理脚本发布于:https://github.com/deepseek-ai/DeepSeek-V3(https://doi.org/10.5281/zenodo.15753347)。

神经网络使用 PyTorch 开发,分布式框架基于我们内部的 HAI‑LLM 框架(https://www.high-flyer.cn/en/blog/hai-llm)。推理框架基于 vLLM。

数据分析使用 Python v3.8(https://www.python.org/)、NumPy v.1.23.1(https://github.com/numpy/numpy)、Matplotlib v.3.5.2(https://github.com/matplotlib/matplotlib)以及 TensorBoard v.2.9.1(https://github.com/tensorflow/tensorboard)。

参考文献

1. Brown, T. B. et al. Language models are few-shot learners. In Advances in Neural Information Processing Systems 33(eds Larochelle, H. et al.) (ACM,2020).

2. OpenAl etal. GPT4 technical report. Preprint at https://doi.org/10.48550/arXiv.2303.08774(2024).

3. Wei, J.et al. Chain-of-thought prompting elicits reasoning in large language models. In Advancesin Neural Information Processing Systems 35 (eds Koyejo, S. et al.) 24824-24837(ACM,2022).

5. Kaplan, J. et al. Scaling laws for neural language models. Preprint at https://doi.org/10.48550/arXiv.2001.08361 (2020).

6. Kojima, T., Gu, S. S., Reid, M., Matsuo, Y. & Iwasawa, Y. Large language models are zero-shot reasoners. In Advances in Neural Information Processing Systems 35 (eds Oh, A. H. et al.)  22199–22213 (ACM, 2022).

7. Chung, H. W. et al. Scaling instruction-finetuned language models. J. Mach. Learn. Res. 25, 1–53 (2024).

8. DeepSeek-AI et al. DeepSeek-V3 technical report. Preprint at https://doi.org/10.48550/arXiv.2412.19437 (2025).

9. Shao, Z. et al. DeepSeekMath: pushing the limits of mathematical reasoning in open language models. Preprint at https://doi.org/10.48550/arXiv.2402.03300 (2024).

10. Wang, X. et al. Self-consistency improves chain of thought reasoning in language models. In 11th International Conference on Learning Representations (ICLR, 2023).

11. Hendrycks, D. et al. Measuring massive multitask language understanding.In 9th International Conference on Learning Representations (ICLR, 2021).

12. Gema, A. P. et al. Are we done with MMLU? In Proc. 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (eds Chiruzzo, L. et al.) Vol. 1 (Long Papers), 5069–5096 (ACL, 2025).

13. Wang, Y. et al. MMLU-Pro: a more robust and challenging multi-task language understanding benchmark. In Advances in Neural Information Processing Systems 37(eds Globersons, A. et al.) 95266–95290 (ACM, 2024).

14. Dua, D. et al. DROP: a reading comprehension benchmark requiring discrete reasoning over paragraphs. In Proc. 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies Vol. 1 (Long and Short Papers) (eds Burstein, J. et al.) 2368–2378 (ACL, 2019).

15. Huang, Y. et al. C-EVAL: a multi-level multi-discipline Chinese evaluation suite for foundation models. In Advances in Neural Information Processing Systems 36(eds Oh, A. et al.) 62991–63010 (ACM, 2023).

16. Zhou, J. et al. Instruction-following evaluation for large language models. Preprint at https://doi.org/10.48550/arXiv.2311.07911 (2023).

17. Krishna, S. et al. Fact, fetch, and reason: a unified evaluation of retrieval-augmented generation. In Proc. 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies Vol. 1 (Long Papers) 4745–4759 (ACL, 2025).

18. Rein, D. et al. GPQA: a graduate-level Google-proof Q&A benchmark. Preprint at https://doi.org/10.48550/arXiv.2311.12022 (2023).

19. OpenAI. Introducing SimpleQA; https://openai.com/index/introducing-simpleqa/ (2024).

20. He, Y. et al. Chinese SimpleQA: a Chinese factuality evaluation for large language models. In Proc. 63rd Annual Meeting of the Association for Computational LinguisticsVol. 1 (Long Papers), 19182–19208 (ACL, 2025).

21. Xu, L. et al. CLUE: a Chinese Language Understanding Evaluation benchmark. In Proc. 28th International Conference on Computational Linguistics (eds Scott, D. et al.) 4762–4772 (International Committee on Computational Linguistics, 2020).

22. Dubois, Y., Galambosi, B., Liang, P. & Hashimoto, T. B. Length-controlled AlpacaEval: a simple way to debias automatic evaluators. Preprint at https://doi.org/10.48550/arXiv.2404.04475 (2025).

23. Li, T. et al. From crowdsourced data to high-quality benchmarks: Arena-Hard and BenchBuilder pipeline. Preprint at https://doi.org/10.48550/arXiv.2406.11939 (2024).

24. OpenAI. Introducing SWE-bench verified; https://openai.com/index/introducing-swebench-verified/ (2024).

25. Aider. Aider LLM leaderboards; https://aider.chat/docs/leaderboards/ (2024).

26. Jain, N. et al. LiveCodeBench: holistic and contamination free evaluation of large 

language models for code. In 13th International Conference on Learning Representations(ICLR, 2024).

27. Mirzayanov, M. Codeforces; https://codeforces.com/ (2025).

28. Chinese Mathematical Society (CMS). Chinese National High School Mathematics Olympiad; https://www.cms.org.cn/Home/comp/comp/cid/12.html (2024).

29. Mathematical Association of America. American Invitational Mathematics Examination; 

https://maa.org/maa-invitational-competitions (2024).

30. OpenAI. Hello GPT-4o; https://openai.com/index/hello-gpt-4o/ (2024).

31. Schulman, J., Wolski, F., Dhariwal, P., Radford, A. & Klimov, O. Proximal policy optimization  algorithms. Preprint at https://doi.org/10.48550/arXiv.1707.06347 (2017).

32. Ouyang, L. et al. Training language models to follow instructions with human feedback. In Advances in Neural Information Processing Systems 35 (eds Koyejo, S. et al.) 27730–27744 (ACM, 2022).

33. Nano et al. deepseek-ai/DeepSeek-R1: v1.0.0. Zenodo https://doi.org/10.5281/zenodo.15753192 (2025).

34. Yu, X. et al. deepseek-ai/DeepSeek-V3: v1.0.0. Zenodo https://doi.org/10.5281/zenodo.15753346 (2025).

35. Paszke, A. et al. PyTorch: an imperative style, high-performance deep learning library. In Advances in Neural Information Processing Systems 32 (eds Wallach, H. M. et al.) 8026–8037 (ACM, 2019).

36. Kwon, W. et al. Efficient memory management for large language model serving with PagedAttention. In Proc. ACM SIGOPS 29th Symposium on Operating Systems Principles611–626 (ACM, 2023).

参考文献可上下滑动查看

大模型2.0读书会

o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型II:融合学习与推理的大模型新范式 」读书会,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。读书会已完结,现在报名可加入社群并解锁回放视频权限。

详情请见:大模型2.0读书会:融合学习与推理的大模型新范式!

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

人工智能 数学 编程 竞赛
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论