没坐在实木茶几前,没坐在沙发里,背景也没有高雅的绿植映衬,月之暗面的 CEO 杨植麟在视频里站着就发布了 Kimi 最新的模型 K2.5。
而且还是中英文双语的。
"Hi 大家好,我是植麟。" 杨植麟说。"K2.5 是我们目前最强大的模型,它是一个全能模型,不管是视觉还是文本,对话还是 agent,思考还是非思考——所有这些能力,都集中在这一个模型里。重要的是,K2.5 是一个开源模型。"
显然,一个疯狂的模型集体更新季到来了。
而即便如此,在诸多新发布的模型之间,月之暗面刚刚最新发布的 Kimi K2.5 依然区分度明显。
根据 Kimi 的数据,K2.5 在包括 HLE、BrowseComp 和 DeepSearchQA 等极具挑战性的 agent 评测中取得了当前最佳表现。在编程能力测试上,它在 SWE-bench Verified 上拿到了 76.8 分,缩小了与顶尖闭源模型之间的差距。多项视觉理解评测上也实现了当前最佳效果。

在这些能力指标之外,更重要的是,K2.5 是至今为止最能充分展现月之暗面特质的一代模型:
这家公司一直被寄予厚望的是它的算法研究和产品创新能力,而这代更全面的模型充分展示了这家公司在研究和产品设计上很强的少年气。
1
先看看 K2.5 的几个核心特点:
在模型具体单点的能力上,它终于有了视觉能力,可以基于视觉,包括图片和视频,进行理解和推理。同时它是一个 all in one 架构的模型,多模态和文本、思考和快速回答、代码和 agent 能力都统一于一个模型一身。
在月之暗面一直坚信的 " 模型即产品 " 思路之下,K2.5 这次做了多个很有新意的功能封装。
它把视觉和编码能力结合,把模型追求的 few shots 甚至 zero shot 能力直接体现在 Kimi 的产品上,你可以用更简单的自然语言和更直观的视觉编辑的方式,比如直接给他一个你要的产品的视频,让它拆解后还原复刻,比如直接在生成的 UI 上圈圈改改,就能完成创作和开发以及修改。
(官方给出的一个用视觉能力复刻项目的例子)
除了前端设计,伴随 K2.5,Kimi 还推出了 Kimi Code,可以在终端里直接运行,也能集成到 VSCode、Cursor 等主流编辑器中。你可以直接输入图片和视频进行编程辅助,而且它还可以自动发现并将你现有的 Skills 迁移到新的工作流中。
更亮眼的则是此次发布的但依然在 beta 阶段的多 agent 能力。Kimi 直接通过产品把模型训练出来的 " 多 agent 平行与串行调度能力 " 封装提供了出来:
当你选择 Agent 集群模式,模型开始给你打造一个专业团队,100 个 agent 集群可以同时并发,串行 + 并行来完成复杂任务。根据 Kimi 介绍,这些专项 agents 本质上都是 K2.5 的 " 分身 " 但各自承担不同的角色和子任务。
" 没有任何预设的规则,所有的角色分配和任务拆解,都由 K2.5 现场即时决定。" 依然是模型通用能力最终大过垂直打造工作流的产品思路。
目前 Agent 集群功能正在进行 Beta 测试,部分 Kimi 会员可提前试用,接下来会逐渐推广。
而在这一切的底座上,在模型训练方法以及 AI 技术演进的方向上杨植麟继续完善着他 scale to AGI 的路线。
在训练上,Agent 集群对模型提出新的要求,Kimi 为此重构了强化学习的基建,专门优化了训练算法,以确保它能达到极致的效率和性能。
而从 K1.5 开始,每一代的模型其实都在 Scale 一个不同的方向,K1.5 是在 token 上继续 Scale,到了 agent 能力增强的 K2,重点 scale 思考的步骤,而 K2.5 则是对 agent 的规模,也就是多 agent 的共同协作能力做 Scale,进而保持 scale 的可延续。
"Scaling Out, Not Just Up."
2
这次 K2.5 让 Kimi 变成一个全面的模型,更难得的,是这些背后都有它自己思路清晰的创新思考。
都说 scaling law 不持续,我就要给你延续下去,而且是一个又一个 " 新花样 " 的延续。
而且这些 Scale 的方向后来也都成为了模型研究界在那一阶段的主流。此次的多 agent 其实再次把 agent swarm 摆到了大家面前,这个 "agent 蜂巢 " 的概念提了很久,这次 Kimi 用一个模型来把它展示出来,接下来如何提高高并发、大批量、多样性以及智能 " 分身 " 的能力,会成为又一个各大厂商比拼的重点。
在此次的技术报告里,Kimi 也着重分享了 Agent swarm 背后的创新。
K2.5 使用了一种并行智能体强化学习(PARL)的方法进行训练,让模型学会自我指导一个多达 100 个子智能体的蜂群,在最多 1500 个协调步骤内执行并行工作流。而这个过程里无需预定义角色或手工设计的工作流。
PARL 其实包括三个部分,一个可训练的编排智能体,负责拆解任务," 分身 " 出可并行化的子任务,这些子任务由动态实例化的冻结子智能体执行。
这个训练过程困难重重,比如当你让它们并行后再串联起来时,很可能会发现编排器默认退化为了单智能体执行,于是一切都崩了。Kimi 为解决此问题,给 PARL 采用了分阶段奖励塑形,在训练早期鼓励并行,并逐步将重心转向任务成功。

这一套创新带来很好的效果。在 Kimi 的内部评估中,Agent Swarm 使端到端运行时间缩短 80%,并支持更复杂的长周期任务负载。

在广泛搜索场景下,相比单智能体执行,它将达成目标性能所需的最小关键步骤减少 3 至 4.5 倍,且节省效果随目标提升而扩展——通过并行化实现高达 4.5 倍的实际耗时缩减。
同时,在多模态上,它不只是给一个文本模型补上这个能力就完事了,它同样展现了自己对这个能力究竟能给人们带来什么价值的思考。
眼看人们的创造都已离不开 AI 却又逐渐沦陷在 AI 味儿的模版化里无暇逃离,它就花大力气去训模型的 " 美学品味 "。
眼看提示词工程正变得越来越悬乎,本该简洁的 AI 交互里,它(很多时候瞎热闹)的复杂性正被反过来用作一种新的 FOMO 来源,于是 Kimi 强化了 K2.5 的意图理解能力,并且在交互上做文章——
都知道多模态是必备能力,但 Kimi 觉得它不该是 " 目的 " 本身,而应该是一把利刃,加持到 Coding 的能力上去,这样能让更多人平等的享受 AI 带来的编程 " 普惠 " 红利,不用陷入提示词陷阱里去。
Kimi 从成立到今天,有一个地方一直没变,就是它是一个最有自己想法的,甚至有时候让人感到充满一股中二气质和热血感的模型公司。
一个很有意思的地方是,当这个多 agent 调用时,它会给不同 agent 起名字,在一个案例里,这些 agent 的名字中二气十足:

比起在榜单上对闭源模型的逼近,其实今天我们更需要的没有被困在某个阶段或是困在原地的模型和公司们,它们能让人看到继续打破一些桎梏往前走的希望,让人看到一些少年气,这真的很重要。


登录后才可以发布评论哦
打开小程序可以发布评论哦