IT之家 昨天
新浪微博发布其首个开源大模型 VibeThinker-1.5B
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 11 月 13 日消息,今日新浪微博发布了其首个开源大模型 VibeThinker-1.5B,号称 " 小模型也可以有大智慧 "。

IT 之家附官方介绍如下:

目前业界最强大模型参数量大都超过了 1T,甚至出现了 2T 规模的模型,是否只有巨量参数模型才有高度的智能?是否只有少量科技巨头才有能力做大模型?

VibeThinker-1.5B,正是微博 AI 对此问题给出的否定答案,它证明了小模型也可以有高智商。这意味着做最强大模型不再像传统观念以为的那样主要依赖推高参数量,也可以通过巧妙的算法设计来做到这一点。

这款模型仅有 1.5B ( 15 亿 ) 参数,经过微博 AI 研发人员提出的创新 " 频谱到信号原理 "(SSP)方法训练后,其效果堪称颠覆:VibeThinker 在 AIME24、AIME25 以及 HMMT25 三个高难度数学测试集上的表现,超越了参数量超其 400 倍的模型 DeepSeek-R1-0120 版本(模型大小 671B),与规模为 456B 的 MiniMax-M1 效果接近或相当;在 LiveCodeBench v6(编程算法题测试集)中的成绩,成功追平参数量数超其数十倍的模型,比如欧洲领先 AI 企业 Minstral.AI 的深度思考模型 Magistral-Medium-2506 版本。

VibeThinker 能力强大不靠堆参数,而是源于微博研发人员提出的 SSP 训练理念,即在学习阶段先鼓励模型发散探索所有可能的解题路径,而非一味关注正确率;随后,通过强化学习进行高效策略优化,精准锁定正确路径,将模型性能提升至极致。

模型的单次 " 后训练 "(Post-Training)成本不足 8000 美元,与此对应,DeepSeek-R1 和 MiniMax-M1 的后训练成本分别是 29 万及 53 万美元,降低了几十倍。

VibeThinker-1.5B 的开源,旨在为全球计算资源有限的中型企业及高校研究团队,提供一条高性价比的研发新路径,使得人人都可以训练最前沿的大模型,而不是像之前一样被排斥在外,这对于业界技术进步至关重要。

Github:https://github.com/WeiboAI/VibeThinker

HuggingFace:https://huggingface.co/WeiboAI/VibeThinker-1.5B

Arxiv:https://arxiv.org/pdf/2511.06221

ModelScope:https://www.modelscope.cn/models/WeiboAI/VibeThinker-1.5B

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 效果 it之家 科技巨头
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论