Kimi K2.5 带来了一个「蜂群时刻」

这两天 K2.5 的更新在海内外都赚足了讨论，一个原生多模态模型，提供了最先进的编码和视觉功能，以及自主智能体集群范式——召唤一群 agent 过来完成任务，听上去也太酷了。

技能多 Agent，好酷炫好好玩

K2.5 目前已经全量推出，客户端即可使用。K2.5 Agent 有免费体验次数，而 K2.5 集群则是付费功能，目前只对 Allegretto 计划。订阅了也有点数限额：每个月起步 47 点，每次任务消耗 3 点。

总体上是够用的，如果你拿不准主意，也可以参与今天的福利放送，率先体验一下。

不过作为 Kimi 老用户，当然是买，买它。正好手边有一堆文件需要合并，懒得手动复制粘贴了，就发给 Kimi 打开集群模式让它统一处理。

集群模型下，Kimi 还给这个地方加了个设计：会有一个工牌掉落下来，你可以看到是哪位「负责人」在执行任务。

合并文档最终的效果不错，而且我还进一步提出让它整理和调整各个层级的小标题，它可以实现先分析、提方案、再执行的链路。不过最好是下载到本地检查格式，Kimi 自带的预览功能，有时候不能准确反映当轮次的修改效果。

为了进一步看它的多并发操作，我参考官方 demo，测试了一个任务：检索近三个月内所有关于集群式 agent 的文献，然后整理到一个 excel 表格里，提炼核心发现和研究创新点。

这次安排的「人员」就比较多了，各个 agent 纷纷赶来支援，每个人都有自己分配到的任务。

这个的耗时明显比之前要长了很多，但没关系，可以先挂机让它自己跑。同时，我又安排了一个考察多模态能力的任务。

这是上传给 Kimi 的原始素材图，视频版中有更多动效。Kimi 要做的是把这个设计，转换为网页，同时保留所有的设计元素、风格。Prompt 写得简单，但实际工作是复杂的：既要识别、理解，又要生图，还要写前端。

这个任务也花了比较长的时间，但最终效果很好。有一些小细节上的问题，比如图片排版，悬停和跳转有问题等。不过核心的设计元素都保留了，并且网页功能也完备。

再回头来看，文献检索的任务也好了，整整齐齐列了一个 excel 出来：

最后一个测试任务是：上小红书找达人，要求是数码博主，粉丝量大于 5000，累计笔记多于 100 条。这两个条件其实很宽松，真的找起来范围很大。

Kimi 碰到的第一个问题是：进不去小红书。其实这里可以主动询问用户，类似 GPTagent 会用的办法。

但并没有，Kimi 转而去了新榜抓数据，这样既绕开了网页权限，又能直接读取数字。这不算是个很好的策略，最后只能抓出来数量很少的博主，显然小红书上不可能只有这些。另外，被挡在平台外，也无法体现 Kimi 的视觉能力，毕竟抓取的都是现成的数字。

不过总体上，Swarm Agent 给人一种踏实感。这些工作单体 agent 能不能做？自然是可以，只是要花时间、错漏多。而一群人来做，更加的令人安心。

创「新」在哪里？

说到这里，你可能会问：这不就是 Multi-Agent（多智能体）吗？很多公司都在做啊。

关键区别在于「谁来当老板」。

在传统的 Multi-Agent 系统中，人类需要预先设计好整个工作流程：谁负责什么、谁先谁后、结果怎么汇总。就像搭积木一样，你得先把图纸画好。而 Agent Swarm 的核心创新在于—— AI 自己就是设计师。

Kimi 团队用了一种叫 PARL（Parallel-Agent Reinforcement Learning，并行代理强化学习）的训练方法，让模型学会了「分解任务」和「调度资源」的能力。你不需要告诉它「先派 3 个人去搜资料、再派 2 个人去写总结」，它自己就能判断：这个任务适合拆成几份？每份派谁去做？什么时候该并行、什么时候该串行？

换句话说，Multi-Agent 是「人类编排的交响乐团」，Agent Swarm 是 AI 自己组队的爵士乐。

还有一个容易混淆的概念是 MoE：Mixture of Experts，混合专家模型。主流大模型内部都用了 MoE 架构，但它们和 Agent Swarm 完全是两回事。

MoE 发生在模型内部。你可以把它理解为：模型里住着一群「专家」，每次处理任务时，模型会动态决定激活哪几个专家来参与。但这些专家没有独立的身份，也不会互相协作，它们只是模型内部的不同计算路径。

Agent Swarm 发生在模型外部。每个子代理都是一个相对独立的执行单元，有自己的任务目标，可以并行运行，甚至可以调用工具（比如搜索网页、写代码）。它们之间是真正的「协作关系」，而不是简单的「激活关系」。

用个不太严谨的比喻：MoE 像是一个人的大脑里分区工作，Agent Swarm 像是一个公司里的团队协作。

从实测和官方演示来看，Agent Swarm 至少在以下几类任务上表现出色：

第一类是大规模信息收集。比如官方案例中 100 个领域创作者调研，以及我们这次实测的小红书博主检索。处理这类任务的共同特点是「可并行」——每个子任务相对独立，不需要太多中间协调。

第二类是视觉 + 代码的复杂任务。 Kimi K2.5 强调自己是「原生多模态」模型，能看懂图片和视频。结合 Agent Swarm 后，它可以一边分析 UI 截图，一边派不同代理分别处理布局、样式、交互逻辑，最后生成完整的前端代码。

第三类是长文档处理。官方提到，Kimi Agent 可以处理「1 万字的论文或 100 页的文档」，支持 Word 批注、Excel 透视表、LaTeX 公式等高级功能。Agent Swarm 可以把长文档拆成多个章节，让不同代理并行处理，再汇总成统一格式——正如最开始的实测案例一样。

不过，别急着兴奋，Agent Swarm 并非「开了挂」。在实际使用中，你会发现几个明显的边界：

第一，任务本身得「可拆」。如果任务步骤之间有强依赖关系——比如「先想清楚论点，再去找证据，最后才能写结论」——强行并行反而会帮倒忙。

第二，成本会显著上升。 100 个代理同时工作，意味着 100 倍的 API 调用。虽然总时间缩短了，但 Token 消耗是实打实的。

第三，质量不一定比单 Agent 好。在某些需要深度推理的任务上，比如数学证明、复杂编程题，单 Agent 的「深度思考模式」反而更可靠。Agent Swarm 的优势在于「广度」和「速度」，而不是「深度」。实测下来，部分任务 Kimi 会自动调剂成单 Agent 模型，这点 Kimi 团队成员也在 reddit 的线上问答里得到了证实。

Kimi 团队眼中的未来

在 Reddit 的 AMA（Ask Me Anything）活动中，Kimi 团队回答了大量关于技术、产品和愿景的问题。透过这些回答，我们可以拼凑出他们对 Agent Swarm 乃至整个 AI 未来的思考。

在回答「Agent Swarm 下一步会怎么发展」时，Kimi 团队透露了几个方向：

【更智能的调度】目前的 Agent Swarm 已经能自动分解任务和创建子代理，但调度策略还比较「粗粒度」。未来有希望能建立更精细的资源分配——比如根据任务的紧急程度、复杂度、依赖关系，动态决定「派多少人、干多久」。

【更深度的协作】现在的子代理之间交流有限，主要是「各自干完活，把结果交给老大汇总」。未来可能会支持子代理之间的直接协作，比如「A 代理发现一个问题，可以主动呼叫 B 代理来帮忙」。

【更广泛的工具集成】Kimi 团队表示，他们正在扩展 Agent 可以调用的工具库，包括但不限于更多的办公软件、开发环境、数据分析工具。目标是让 Agent Swarm 能真正「端到端」地完成复杂工作流。

AMA 中还有一个问题很有意思：许多说法称，scaling law 已经碰到了上限，Kimi 团队如何看待这个问题呢？

Kimi 团队的回答是：Agent 集群就是他们走出的尝试。展望未来，或许会出现一种几乎不、甚至完全不需要人类先验信息的模型。

这个愿景听起来有些理想化，但细想之下颇有深意。过去两年，AI 领域一直在「卷参数」——模型越来越大、算力越来越贵。而 Agent Swarm 代表了一种不同的思路：与其让一个超级大脑做所有事，不如让一群大脑分工协作。

这可能才是通向 AGI 的更务实路径：单独一只蜜蜂并不起眼，但当成千上万只蜜蜂协同工作时，它们能建造出精妙的蜂巢。

宙世代

一起剪

相关标签