量子位 19小时前
中国大模型首登Nature封面!DeepSeek首次披露:R1训练只花了200万
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

Nature 封面认证!DeepSeek R1 成果,又拿下了最新殊荣。

就在最新的 Nature 新刊中,DeepSeek 一举成为首家登上《Nature》封面的中国大模型公司,创始人梁文锋担任通讯作者。

纵观全球,之前也只有极少数如 DeepMind 者,凭借 AlphaGo、AlphaFold 有过类似荣誉。

Nature 版本的 R1 论文不仅首次披露了 R1 的训练成本——仅约29.4万美元(折合人民币约 208 万),还进一步补充了包括模型训练所使用的数据类型及安全性的技术细节。

评审该论文的 Hugging Face 机器学习工程师 Lewis Tunstall 表示,R1 是首个经历同行评审的大型语言模型,这是一个非常值得欢迎的先例。

而俄亥俄州立大学人工智能研究员 Huan Sun 更是盛赞 R1 ,称其自发布以来,几乎影响了所有在大语言模型中使用强化学习的研究。

截至发文前,其数据如下:

谷歌学术引用:3596 次

Hugging Face 下载量:1090 万次(开源模型下载量第一)

GitHub Star:91.1K

不过也是因为 DeepSeek,中国 AI 公司的下一篇工作,恐怕已经不再满足于 CVPR、ICLR、ICML 这些 AI 顶会了,

是不是得对齐 Nature、Science 的封面了?

澄清训练细节

在这次的 Nature 版本中,DeepSeek 在其最新的补充材料中对训练成本、数据及安全性进行了进一步的澄清。

在训练花费方面, R1-Zero 和 R1 都使用了 512 张 H800GPU,分别训练了198个小时和80个小时,以 H800 每 GPU 小时 2 美元的租赁价格换算的话,R1 的总训练成本为29.4万美元。

要知道,R1 可是实打实的660B参数的大模型。

相比之下,它不到 30 万美元的训练成本,直接让那些动辄烧掉上千万美元的同行们 " 抬不起头 "。

也难怪它在年初发布时,会在美股掀起一场海啸,让那些关于 " 巨额投入才能打造顶级 AI 模型 " 的传言不再那么漂亮。

(奥特曼:干脆报我身份证号得了)

此外,在数据来源方面,DeepSeek 也是一举打破了拿彼模型之输出当 R1 之输入的传闻。

根据补充材料,DeepSeek-R1 的数据集包含数学、编程、stem、逻辑、通用等 5 个类型的数据。

具体来说,数学数据集包含 2.6 万道定量推理题,包括数学考试题和竞赛题;

代码数据集包含 1.7 万道算法竞赛题和 8 千道代码修复问题;

STEM 数据集包含 2.2 万道选择题,涵盖物理、化学和生物等学科;

逻辑数据集包含真实问题和合成问题等共 1.5 万道题;

通用数据集包含 6.6 万道题,用于评估模型的有用性,涵盖创意写作、文本编辑、事实问答、角色扮演以及评估无害性等多种类别。

在安全性方面,虽然开源共享有助于技术在社区中的传播,但同时也可能带来被滥用的潜在风险。因此 DeepSeek 又一进步发布了详细的安全评估,涵盖以下几个方面;

DeepSeek-R 官方服务的风险控制系统

在六个公开安全基准上与其他最先进模型的对比评估

基于内部安全测试集的分类学研究

R1 模型的多语言安全性评估

模型对越狱攻击的鲁棒性评估。

评估表明,DeepSeek-R1 模型的固有安全水平总体处于中等水平,与 GPT-4o 相当,通过结合风险控制系统可进一步提高模型的安全水平。

接下来,我们来一起回顾一下这篇经典论文

将强化学习应用于大语言模型的里程碑

总的来说,DeepSeek-R1(zero)旨在解决大型语言模型在处理复杂问题和对人工数据的依赖,提出了一种纯强化学习(RL)框架来提升大语言模型的推理能力。

这一方法不依赖人工标注的推理轨迹,而是通过自我演化发展推理能力,核心在于奖励信号仅基于最终答案的正确性,而不对推理过程本身施加限制。

具体来说,他们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO(Group Relative Policy Optimization)作为强化学习框架来提高模型在推理任务上的表现。

经过数千步强化学习训练后,DeepSeek-R1-Zero 在推理基准测试上表现出卓越性能。

例如,在 AIME 2024 上,pass@1 分数从 15.6% 提升至 71.0%,通过多数表决进一步提高至 86.7%,与 o1 的表现相当。

更进一步,为了解决 DeepSeek-R1-Zero 在可读性和语言混合上的问题,研究又引入 DeepSeek-R1,采用少量冷启动数据和拒绝采样、强化学习和监督微调相结合的多阶段训练框架。

具体而言,团队首先收集数千条冷启动数据,对 DeepSeek-V3-Base 模型进行微调。随后,模型进行了类似 DeepSeek-R1-Zero 的面向推理的强化学习训练。

在强化学习接近收敛时,团队通过在强化学习检查点上进行拒绝采样,结合来自 DeepSeek-V3 在写作、事实问答、自我认知等领域的监督数据,生成新的 SFT 数据,并重新训练 DeepSeek-V3-Base 模型。

经过新数据微调后,模型还经历了覆盖各种提示场景的额外的强化学习过程,DeepSeek-R1 就由此而来。

实验表明,DeepSeek-R1 与当时的顶尖模型 OpenAI-o1-1217 不相上下。

此外,将大模型涌现出的推理模式用于指导并提升小模型的推理能力也成为了一种经典方法。

论文中使用 Qwen2.5-32B 作为基础模型,结果显示,从 DeepSeek-R1 蒸馏出的性能,优于直接在该基础模型上应用强化学习。

当然,在开拓性论文的基础上,更让人津津乐道、也赢得 Nature 盛赞的,是 DeepSeek 的透明性与开源精神:

DeepSeek 已在 HuggingFace 上公开了 DeepSeek-R1 和 DeepSeek-R1-Zero 的模型权重,同时将基于 Qwen2.5 和 Llama3 系列的蒸馏模型一并开源,供社区自由使用。

回想年初 DeepSeek 在海外爆火时,梁文锋一句 " 中国 AI 不可能永远跟随 " 的豪言壮志令人振奋。

如今,DeepSeek 影响力获得 Nature 封面认可,如果 AI 研究机构有 S 级认可,那 DeepSeek 毫无疑问已经拿到了 S 级认证。

下一个,阿里通义、字节 Seed、腾讯混元、百度文心、华为、智谱、Kimi、阶跃……

Who?

参考链接

[ 1 ] https://www.nature.com/articles/d41586-025-03015-6

[ 2 ] https://www.nature.com/articles/s41586-025-09422-z

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

  年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者  点击了解详情

❤️‍   企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与   

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 谷歌 数学 alphago
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论