生活消费网 04-14
最强32B中文推理模型已开源,同规模下性能对齐DeepSeek-R1
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

继 2025 年 2 月发布首款中文逻辑推理大模型 Skywork-o1 之后,昆仑万维天工团队在此基础上持续迭代优化,4 月 13 日,重磅推出全新升级的 Skywork-OR1 ( Open Reasoner 1 ) 系列模型。

该系列在同等参数规模下实现了业界领先的推理性能,进一步突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。同时,Skywork-OR1 全面开放、免费使用,以完全开源的形式回馈开发者社区,坚定践行天工团队在推动 AI 技术发展上的开源路线。

此次开源涵盖三款高性能模型,包括:

1. Skywork-OR1-Math-7B:聚焦数学领域的专项模型,同时也具有较强的代码能力。

2. Skywork-OR1-7B-Preview:融合数学与代码能力、兼具通用性与专业性的通用模型。

3. Skywork-OR1-32B-Preview:面向更高复杂度任务、具备更强推理能力的旗舰版本。

此次发布的 Skywork-OR1 系列采用业界最高透明度的开源策略:不同于其他前沿开源推理模型仅开放模型权重,我们全面开源了模型权重、训练数据集和完整训练代码,所有资源均已上传至 GitHub 和 Huggingface 平台。

配套的技术博客已发布于 Notion 平台,详细阐述了数据处理流程、训练方法和关键技术发现,为社区提供了完全可复现的实践参考。

目前 Skywork-OR1-7B 和 Skywork-OR1-32B 的能力还在持续提升,在两周内我们还会发布两个模型的正式版本,同时也会推出更为系统详尽的技术报告,进一步分享我们在推理模型训练中的经验与洞察。我们相信,这种全方位的开源策略将有助于推动整个 AI 社区在推理能力研究上的共同进步。

Skywork-OR1 系列开源地址:

https://github.com/SkyworkAI/Skywork-OR1

昆仑万维天工团队更多开源项目:

https://huggingface.co/Skywork

在评测方面,Skywork-OR1 系列模型引入了 avg@k 作为核心评估指标,用于衡量模型在进行 k 次尝试时成功解决问题的平均表现。相较于传统的 pass@k 指标仅关注是否 " 至少一次成功 ",avg@k 能更细致地捕捉模型在多轮生成过程中的稳定性与整体推理能力,从而更全面反映其真实性能水平与实用价值。

在数学推理任务中:

1. 通用模型 Skywork-OR1-7B-Preview 和 Skywork-OR1-32B-Preview 在 AIME24 与 AIME25 数据集上均实现了同参数规模下的最优表现,展现出强大的数学推理能力。

2. 针对数学场景深度优化的专项模型 Skywork-OR1-Math-7B 更是在 AIME24 和 AIME25 上分别取得 69.8 与 52.3 的高分,远超当前主流 7B 级别模型,充分验证了其在高阶数学推理任务中的专业优势。

3. Skywork-OR1-32B-Preview 在所有 benchmark 上均实现了对 QwQ-32B 的超越,并在更难的 AIME25 上基本与 R1 持平。

在竞赛编程任务中:

1. 通用模型 Skywork-OR1-7B-Preview 与 Skywork-OR1-32B-Preview 在 LiveCodeBench 数据集上均取得了同等参数规模下的最优性能。

2. Skywork-OR1-32B-Preview 表现尤为突出,其代码生成与问题求解能力已接近 DeepSeek-R1(参数规模高达 671B),在大幅压缩模型体量的同时实现了卓越的性价比,充分展现出天工团队训练策略的先进性。

其中 Skywork-OR1-Math-7B 表现尤为亮眼,作为一个专注于数学推理能力的 7B 参数模型,通过多阶段 GRPO 训练在复杂数学问题上实现了卓越表现,同时在代码任务上也有较强的泛化能力。下图是该模型在 AIME24 上的训练准确率曲线,清晰呈现了多阶段训练过程中性能的稳定提升轨迹。

Skywork-OR1-Math-7B 最终模型在 AIME24 和 AIME24 上分别达到 69.8% 和 52.3%,超越了 OpenAI-o3-mini ( low ) ,达到了当前尺寸 SOTA 性能。值得注意的是,尽管该模型训练过程中未专门针对代码能力进行优化,但在代码评测基准上 Livecodebench 从 37.6% 提升到 43.6%,相比基线模型的显著提升,这也表明我们的训练方法具有较好的领域泛化性。

自 2023 年以来,昆仑万维坚定地开源大模型回馈开发者和行业。2025 年开源的 Skywork-R1V 多模态视觉推理模型、SkyReels-V1 面向 AI 短剧创作的视频生成模型、Skywork-o1 推理模型以及 2024 年开源的 Skywork-Reward 奖励模型,不仅在 Hugging Face 上下载数据表现亮点,开发者讨论度和模型热度依然居高不下。

当前,全球人工智能领域的竞争日趋激烈,竞赛的焦点正逐步从基础模型能力扩展到推理能力的比拼。AI 大模型能否有效模仿人类的思维过程、具备逻辑推理和复杂任务的求解能力,已成为衡量技术先进性与通用智能潜力的关键指标。

在此背景下,为打破科技巨头对核心 AI 大模型技术的垄断壁垒,推动技术自主可控发展,中国多家企业纷纷投身于开源大模型生态的建设。未来,昆仑万维仍继续秉持 "All in AGI 与 AIGC" 战略、" 实现通用人工智能,让每个人更好地塑造和表达自我 " 的使命,持续加大在通用大模型、开源框架和推理能力提升等方向的研究投入,力求在全球 AI 技术浪潮中抢占先机、塑造竞争优势。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 昆仑万维 数学 ai
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论