量子位 7小时前
杨植麟回复:Kimi K2训练用的H800!但“只花了460万美元”嘛…
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

Kimi K2 Thinking 训练真的只花了 460 万美元?杨植麟亲自带队,月之暗面创始团队出面回应了。

这不是官方数据。训练成本很难计算,因为其中很大一部分用于研究和实验。

他们还透露训练使用了配备 Infiniband 的英伟达 H800,GPU 数量也比巨头的少,但充分利用了每一张卡。

但不管怎样,Kimi K2 模型凭借自身实力和低成本,正在硅谷引发一场 " 用脚投票 " 的迁移大潮。

投资人 Chamath Palihapitiya 透露他的新公司将 AI 负载迁移到 Kimi K2,因为它性能更强,价格也便宜得多。

云端开发平台 Vercel CEO 也分享了内部测试结果,称 Kimi K2 比闭源模型快 5 倍,准确率还高 50%。

Claude Code 用户也在相互传授把模型改成 Kimi K2 的设置方法。

特别是 Kimi K2 Thinking 被爆料只花了 460 万美元训练,比年初引发轰动的 DeepSeek V3(爆料约 560 万美元)还要低。

先不论这个数字是否准确,总之是让硅谷陷入一阵反思。

当免费或极低成本的开源模型能提供同等甚至更优的性能时,闭源巨头的高估值,还合理吗?

也有另一面的舆论是:或者该重估月之暗面了。

Kimi 是如何做到的?

技术社区的分析指出,Kimi K2 Thinking 巧妙地继承并优化了现有开源成果,特别是在架构上与 DeepSeek 模型一脉相承。

团队将 MoE 层的专家数量从 DeepSeek 的 256 个增加到 384 个以增强模型的知识容量,同时将每次推理激活的参数量从约 370 亿减少到 320 亿来降低推理成本。词汇表从 129k 扩大到 160k,并减少了 MoE 之前的密集前馈网络块,进一步优化计算效率。

更关键的是工程创新。Kimi K2 使用了团队自研的 MuonClip 优化器,能在训练过程中自动稳定梯度。

得益于此优化器,Kimi K2 在长达 15.5 万亿 token 的训练过程中实现了 " 零训练崩溃 ",无需人为干预重启,在资金和设备相对有限的情况下也能可靠地训练超大规模模型。

模型还采用了量化感知训练(QAT)方案,实现了原生 INT4 精度推理。这种方法在训练阶段就让模型适应低精度环境,在大幅降低计算资源消耗、提升推理速度约 2 倍的同时,将性能损失降至最低。

直面硅谷开发者,月之暗面团队首次公开 " 答疑 "

在此背景下,月之暗面团队在 Reddit 最活跃的 AI 社区 LocalLLaMA 进行了一场长达 3 小时的 " 回答一切 "(Ask Me Anything)活动,吸引了近 200 条提问和数千条互动。

答疑的三位主力是杨植麟、周昕宇和吴育昕——月之暗面的三位联合创始人,其中那个"4494"就是杨植麟。

核心信息总结如下:

当被问及下一代架构时,团队解释了最新实验性混合注意力机制 KDA(Key-Dependent Attention)的优势,还透露有可能用在下一代 K3 中。

在同等预训练和强化学习的条件下,采用 NoPE MLA 的 KDA 混合模型性能优于采用 RoPE 的完整 MLA 模型,不仅能获得更高的基准测试分数,而且速度更快、效率更高。

历史上,混合注意力很难击败完全注意力,特别是在长输入和长输出任务上。KDA 在各方面都显示出性能提升,包括长链思维的 RL 场景,同时保持了线性注意力的效率。相关想法很可能会在 K3 中采用。

有关未来开发计划,团队还透露:

很快就能体验到类似 Claude Code 的 Kimi Code 产品

正在开发视觉语言(VL)模型,但 VL 数据的获取和训练需要时间,所以优选择发布文本模型

之前尝试过 1M 上下文窗口,但当时的服务成本太高,未来会重新考虑更长的上下文窗口。

承认目前 K2 Thinking 的思考过长、效率较低,下一版会把 " 简化思考过程 " 写进奖励函数。

Q:为什么 Kimi 不像其他模型那样过度夸赞用户?

团队解释这是整理数据时的刻意设计。

Q:Kimi 独特的写作风格从何而来?

解释说这是预训练和后训练共同作用的结果:预训练编码了相关的先验知识,而后训练则添加了一些品味。看到不同的 RL 配方如何产生不同的口味是很有趣的。

此外团队还无保留的回答了一些结束细节问题:

最后,关于下一代 K3 何时到来,团队还开了个小玩笑:

参考链接:

[ 1 ] https://www.reddit.com/r/LocalLLaMA/comments/1oth5pw/ama_with_moonshot_ai_the_opensource_frontier_lab/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

  年度科技风向标「2025 人工智能年度榜单」申报即将于 11 月 17 日截止点击了解详情

❤️‍   企业、产品、人物 3 大维度,共设立了 5 类奖项,最后时刻一起冲刺 

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

kimi ai 开源 准确 英伟达
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论