智东西 14小时前
罕见!月之暗面杨植麟、周昕宇、吴育昕回应一切:打假460万美元、调侃OpenAI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

编译 | 陈骏达
编辑 | 云鹏

智东西 11 月 11 日报道,今天凌晨,月之暗面核心团队在社交媒体平台 Reddit 上举行了一场有问必答(AMA)活动,月之暗面联合创始人兼 CEO 杨植麟等人在 Kimi K2 Thinking 模型发布后不久,正面回应了模型训练成本、跑分与实际体验差距等热点议题。

Kimi K2 Thinking 模型训练成本仅为 460 万美元的网络传言喊得响亮,不过,杨植麟已经打假了,他称,这并非官方数据,训练成本很难量化,因为其中很大一部分用于研究和实验。他还透露,月之暗面已经在研究 K2 的 VL(视觉 - 语言)版本了。

有不少海外网友提出了十分尖锐的问题,比如 Kimi K2 Thinking 的推理长度过长,榜单成绩与实际体验不符等问题。杨植麟解释了背后的原因,他称现阶段该模型优先考虑绝对性能,token 效率会在后续得到改善。榜单高分与实测的脱节,也会在模型通用能力补齐后获得改善。

10 月底,月之暗面开源了混合线性注意力架构 Kimi Linear,首次在短上下文、长上下文、强化学习扩展机制等各种场景中超越了全注意力机制,引来不少开发者关注。杨植麟称,Kimi Linear 的 KDA 混合线性注意力模块,很可能会以某种形式出现在 K3 中。

而当网友问及 K3 的发布时间时,杨植麟戏谑地回应道:" 在 Sam 价值万亿美元的数据中心建成之前。"

月之暗面团队似乎还在另外几条评论中调侃了 OpenAI。当网友问及有无 AI 浏览器的开发计划时,月之暗面联合创始人兼算法团队负责人周昕宇称,要做出更好的模型,并不需要再去套一层新的 Chromium 壳。而当网友好奇 OpenAI 为何要烧掉那么多钱时,周昕宇称:" 这个问题只有 Sam 才知道。我们有自己的方式和节奏。"

面对外界关于 " 开源是否会带来安全风险 " 的提问,杨植麟回应称,开放安全对齐技术栈有助于更多研究者在微调开源模型时保持安全性,同时他也强调需要建立机制,确保这些后续工作遵循安全协议。

他还在另一条评论中补充道:" 我们拥抱开源,因为我们相信对 AGI(通用人工智能)的追求,应该带来团结,而不是分裂。"

月之暗面联合创始人吴育昕也一同参与了这场问答,杨植麟、周昕宇、吴育昕围绕 Kimi 系列模型的架构创新、训练细节、开源策略以及未来规划与网友进行了交流。

一、K2 Thinking 现有优先级是性能,独特文风背后有诀窍

在这场活动中,最受关注的焦点是 Kimi K2 Thinking 模型,这是月之暗面最新发布的开源推理模型。

有网友称,自己测试了 Kimi K2 Thinking 与 GPT-5 Thinking,前者的正确率领先,但推理时间更长,像是在不停复查自己。对此,杨植麟称,他们正在积极优化 token 使用效率。当前版本中,优先考虑的是绝对性能而非 token 效率。月之暗面会尝试将效率纳入奖励机制,以便它能学习如何简化思考过程。

还有网友质疑,Kimi K2 Thinking 是否经过专门训练,以在 HLE 这一基准测试中取得好成绩?它的高分似乎与实际使用中的智能水平不太相符。

杨植麟回应道,Kimi K2 Thinking 在提升智能体推理能力方面取得了一些进展,使其在 HLE 测试中得分较高。月之暗面正在努力进一步提升其通用能力,以便在更多实际应用场景中充分发挥智能的作用。

另有网友问道:" 为何 K2 Thinking 能在一次推理中保持如此长的思维链,而 GPT-5 不行?"

杨植麟解释道:" 我认为推理时间取决于 API 吞吐,而推理 token 的数量取决于模型训练方式。我们在训练 Kimi K2 Thinking 时倾向于使用更多的思考 token 以获得最佳效果。我们的 Turbo API 会更快,同时 Kimi K2 Thinking 原生采用 INT4,这也提升了推理速度。

Kimi K2 Thinking 是一款纯文本模型,有网友提问称,这究竟是为了达到 SOTA 而做出的短期权衡,还是一项长期投资?杨植麟回应,获得正确的 VL 数据和训练需要时间,因此月之暗面选择先发布文本模型。

Kimi K2 系列模型不阿谀奉承、直接的文风在 AI 界算是一股清流,有不少网友认可这种风格。吴育昕称,这种写作风格是模型后训练数据和评估的重要组成部分。

谈及 KDA,杨植麟称,从历史上看,混合注意力在长输入和长输出任务上要超越全注意力一直很困难。KDA 在所有维度上都展示了性能提升,包括长思维链 RL 场景,同时保持了线性注意力的高效性。

另一位网友补充道,希望 KDA 能结合扩散模型使用。杨植麟认为这一想法是可行的,但文本扩散(text diffusion)比较困难,可能是因为在将扩散应用到文本上时,还没有足够好的先验。

周昕宇在技术层面进一步解释了 KDA 的对比优势。他称,KDA 混合架构结合 NoPE MLA 后,在预训练和强化学习阶段均优于采用 RoPE 的完整 MLA。不仅基准得分更高,还更快、更经济,使他们能够更高效地训练、部署并服务更多用户。未来,月之暗面还有进一步改进,成熟后会公开。

近期,DeepSeek、智谱都曾发布以视觉方式作为输入,以提升效率的探索。不过,周昕宇称,他个人认为这种方法过于刻意,自己更倾向于继续探索特征空间,寻找更通用、与模态无关的方法来提高模型效率。

此前,月之暗面曾经在模型中采用了 Muon 作为优化器,网友认为这一优化器相对来说未经测试,这一决定似乎有些疯狂。

周昕宇解释了采用 Muon 的历程。他称,Muon 是一个未经其他厂商测试的优化器,但月之暗面已经用它进行了所有的扩展测试,结果都通过了。他们对自己的研究成果充满信心,网友或许认为 Muon 只是运气好,但实际上有几十种优化器和架构没有经受住这样的考验。

二、" 被封禁 " 已超出控制范围,上下文窗口将进一步扩展

月之暗面三位联合创始人还集中回应了与模型服务、开源等相关话题的疑问。有网友称,Kimi 在自己的公司已经成为主要的测试模型,但生产环境会切换到美国本土的模型。这主要是因为领导层担心 Kimi 是 " 中国大模型 ",可能存在一些风险。

这位网友还分享,自己很喜欢使用 Kimi App,自己一位在亚马逊工作的朋友也很喜欢这一应用,但由于亚马逊有规定必须使用自家的 AI 助手,禁止在工作场合使用其他主流的 AI 助手 App。网友担心,随着 Kimi 逐渐变得知名,她会不会再也无法在工作场合中使用呢?

吴育昕回应称:" 虽然被 " 封禁 " 往往超出我们的控制范围,但开源该模型有望成为消除部分顾虑的有效途径(企业可以自行部署)。我们希望看到一个更加信任的世界,但这需要时间。"

上下文一直是影响 AI 模型在生产环境应用的重要因素。目前,Kimi K2 Thinking 最大支持 256K 的上下文,有网友反馈这对大型代码库而言并不算大。杨植麟称,月之暗面应该能在未来的版本中增加上下文长度。

还有网友希望月之暗面能将模型上下文窗口提升到 100 万个 token,周昕宇回复道,月之暗面之前已尝试过 100 万个 token 的上下文窗口,但当时的服务成本太高。未来他们会重新考虑更长的上下文窗口

当被问及有无 AI 浏览器的开发计划时,周昕宇十分犀利地回复道:要做出更好的模型,并不需要再去套一层新的 Chromium 壳。杨植麟称,月之暗面目前将专注于模型训练,但会不断更新 kimi.com ,使其包含最新功能。

还有不少网友提到,希望月之暗面能推出规模更小的模型。杨植麟称,Kimi-Linear-48B-A3B-Instruct 就是月之暗面发布的小型模型之一,未来他们可能会训练更多模型并添加更多功能。

目前,Kimi 已经提供了编程订阅方案,这一计费方式是基于 API 请求次数,有网友称这种模式导致资源消耗偏高。月之暗面回应称,API 请求次数计费能让用户看到费用明细,同时也更符合企业的成本结构。不过,他们会尽快找到更好的方案。

结语:中国 AI 创新能力获得认可

从社区中海外开发者的热烈提问和尖锐反馈可以看出,以 Kimi 系列为代表的中国模型正受到前所未有的关注。

月之暗面此次在 Reddit 平台的公开问答,集中回应了全球网友对 Kimi 技术细节的大量兴趣和疑问。这种关注背后,也折射出全球开发者对中国 AI 创新能力的认可。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

周昕 开源 创始人 kimi
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论