36氪 02-17
月之暗面:一年前就验证过长思维链,因成本高先搞了长文本
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

月之暗面研究员 Flood Sung 近日分享了 k1.5 模型背后的完整思考过程,并透露称,2024 年 9 月 12 号 OpenAI o1 发布带来的震撼效果,令自己陷入了 Long-CoT 的有效性反思中。因为 Long-CoT 的有效性,其实在一年多前月之暗面 Kimi 联合创始人 Tim 周昕宇就验证过,使用很小的模型,训练模型做几十位的加减乘除运算,将细粒度的运算过程合成出来变成很长的 CoT 数据做 SFT,就可以获得非常好的效果。Flood Sung 表示,公司意识到 Long Context 的重要性,所以率先考虑把 Context 搞长,但却对 Long-CoT 这件事情不够重视,其实主要还是考虑了成本问题。(新浪科技)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

kimi 效果 创始人 周昕
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论