动点科技 02-17
月之暗面:很早就验证过长思维链,因成本高不够重视
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

2 月 17 日消息,上个月 Kimi 发布的多模态推理模型 k1.5,今日月之暗面官方分享了 k1.5 模型诞生的过程。

月之暗面研究员 Flood Sung 表示,去年 9 月 12 号 OpenAI o1 发布,长思维链(推理模型背后的关键技术)的有效让他陷入反思。

因为长思维链的有效性其实在一年多前就已经知道了,月之暗面 Kimi 联合创始人 Tim 周昕宇很早就验证过,使用很小的模型,训练模型做几十位的加减乘除运算,将细粒度的运算过程合成出来变成很长的思维链数据做监督微调,就可以获得非常好的效果。" 我依然记得当时看到那个效果的震撼。"

" 我们意识到长上下文的重要性,所以率先考虑把文本搞长,但却对长思维链这件事情不够重视。其实主要还是考虑了成本问题。" 他表示,长上下文主要做的是长文本输入,有 Prefill 预填充,有 Mooncake 加持,成本速度可控,而长思维链是长文本输出,成本高很多,速度也要慢很多。在这种情况下,把输出搞长就没有成为一个高优选项。

该研究员称还有什么比性能更重要呢?成本和速度有摩尔定律加持,可以不断下降,只要把性能搞上去,剩下的都不是主要问题。" 所以,我们得搞长思维链,搞 o1。"

他还提到在实际训练的过程中有了重要的发现:模型会随着训练提升性能也不断增加 token 数,也就是这是 RL 训练过程中模型可以自已涌现的," 这个和友商 Deepseek 的发现几乎是一样的。"

来源:三言科技

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

kimi 效果 创始人 摩尔定律 周昕
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论