刚刚，杨植麟亲自发布Kimi K2.5开源新王：指挥“智能体大军”，效率暴涨450%

智东西

作者 | 王涵

编辑 | 云鹏

智东西 1 月 27 日报道，今天，月之暗面 Kimi 开源了新模型——K2.5，杨植麟还特别发视频亲自介绍。

杨植麟分享称，K2.5 是 Kimi 迄今为止最强大的模型。面对复杂任务时，Kimi K2.5 可自主调度包含多达100 个子智能体的集群，并行执行最高1500 次工具调用。

相较于单智能体模式，其任务执行效率提升最高达4.5 倍。整个 Agent 集群由 K2.5 模型全自动创建与协调，无需任何预定义子智能体或工作流。该模型以 Kimi K2 为基础技术架构，在原有架构之上进行了持续的预训练优化，且训练过程中学习、融合了约15 万亿个" 视觉 + 文本 " 混合形式的训练数据单元。

K2.5 模型开源页面（来源：Hugging Face）

基准测试上，在 Agents 方面，HLE-Full（综合推理）、BrowseComp（浏览交互）、DeepSearchQA（深度搜索问答）三个基准测试中 K2.5 得分均位列第一；在编码方面，K2.5 在 SWE-Bench Verified、SWE-Bench Multilingual 两项中均排名第一；在图像多模态方面，K2.5 在文档理解测试 mniDocBench 1.5 中得分88.8，为第一名。

K2.5 模型基准测试

在 Agent 基准测试 HLE、BrowseComp 和 SWE-Veried 中，K2.5 与 GPT-5.2（xhigh）相比，在性能逼近的同时成本更低。

K2.5 模型性价比对比

外网网友对 Kimi K2.5 模型的评价可以说是好评如潮。FireworksAI 联合创始人兼首席技术官 Dmytro Dzhulgakov 评论称 "Kimi K2.5= 开源 SOTA 推理 + 视觉 +256K 上下文 + 智能体编码 "。

外网网友评价（来源：X）

Thrive Protocol AI 与数据工程师、Ethers Club 播客主持人 0xSero 说（他用）Kimi 创建了新的网站页面。

外网网友评价（来源：X）

KEA Research 协作平台创立者 Stanislaw 则评价 Kimi 看起来十分有潜力。

外网网友评价（来源：X）

除了 K2.5 模型外，针对软件工程场景，Kimi 团队还推出了编程产品Kimi Code。Kimi Code 可直接在终端运行，并支持与VSCode、Cursor、Zed等主流 IDE 集成。该产品已开源，支持图像与视频输入，还能自动发现现有技能及 MCP 协议并迁移至 Kimi Code 工作环境。

价格上，K2.5 模型 API输入（每百万 Token）4 元，缓存输入 0.7 元；输出（每百万 Token）21 元。

K2.5 模型 API 价格

K2.5 模型提供了四种模式：

1、快速模式：提供最快的响应体验；

2、思考模式：可以用来解答复杂问题；

3、Agent 模式：擅长深度研究、PPT、Excel、Word、PDF 和网页生成等任务；

4、Agent 集群模式：适合需要并行处理的复杂任务。

K2.5 模型主页

开源地址：

Hugging Face：

https://huggingface.co/moonshotai/Kimi-K2.5

魔搭社区：

https://modelscope.cn/models/moonshotai/Kimi-K2.5

一、几句话生成能交互的动态网页界面，K2.5 降低视觉表达门槛

在 Kimi 团队内部编程基准测试集 Kimi Code Bench 中，K2.5 在多语言环境下从构建、调试、重构、测试到脚本编写的端到端任务上均较 K2 有所增强。

内部编程基准测试集 Kimi Code Bench

杨植麟称，Kimi 团队不只是想让 K2.5 学会写代码，更希望它具备设计审美。在前端开发领域，K2.5 能将简单对话转化为完整的前端界面，可以做出像专业设计师出品一样，有高级审美和动效的网页，就像这样：

在视觉编程方面，通过对图像与视频的推理，K2.5 的图像 / 视频转代码生成与视觉调试能力增强，降低了用户通过视觉表达创意的门槛，直接上传一个录屏，就可以重建网页。

此能力源于 K2.5 的大规模视觉 - 文本联合预训练。当数据规模足够庞大时，视觉与文本能力实现同步提升。

K2.5 还可以通过代码推理谜题并标记最短路径：

二、自主调动 1500 个协调步骤，K2.5 端到端运行时间缩短 80%

半年前，Kimi 发布了首个万亿参数开源 Agent 模型 Kimi K2。随后推出的 Kimi K2 Thinking，通过增加思考时间，具备了独立完成长达 300 步操作的长程任务能力，但这还不够。

通过并行智能体强化学习（PARL）训练，K2.5 模型学会了自主调度最多100 个子智能体组成的集群，并行执行最多1500 个协调步骤的工作流，整个过程无需预定义角色或人工设计工作流。

可以说，K2.5 是从 " 单个专家 " 升级为了一个 " 专业团队 "。

K2.5 Agent 集群结构

K2.5 Agent 集群通过并行、专门化的执行方式能够提升复杂任务的性能。在 Kimi 团队内部评估中，其能够将端到端运行时间缩短80%，同时支持更复杂、更长期的工作负载。

Kimi 团队内部评估

在广泛搜索场景中，与单智能体执行相比，Agent 集群可以将达到目标性能所需的最小关键步骤减少至原先的1/4 到 1/5.5。通过并行化，Agent 集群实际运行时间最多可减少至原先的1/5.5。

运行时间对比

在实际任务中，例如在大规模并行处理方面，面对在100 个细分领域中找出排名前三的 YouTube 创作者的任务，K2.5 Agent 集群首先研究并定义每个领域，然后自主创建100 个子智能体进行并行搜索。

每个子智能体在其分配的细分领域内识别出领先的创作者，并将结果汇总到一个结构化的电子表格中。

在大规模使用工具方面，K2.5 Agent 集群仅凭一张结婚照，就能启动20 个并行子智能体，生成符合当地文化背景的全球婚礼旅行场景，并将它们整合到一个具有统一身份和服饰的互动网页中。

此外，在规模化产出方面，K2.5 Agent 集群可以将一项涵盖 40 篇社会心理学论文的文献综述任务分解为多个专注于写作的子智能体。

每个子智能体负责综述的特定部分，它们的输出最终被综合成一份 100 页的双栏学术文档，其中包含格式完整的引文和参考文献。

最后，在大规模下载方面，K2.5 Agent 集群能够调度多个具有专业分工的子智能体，共同协作处理保罗 · 格雷厄姆（Paul Graham）的文章。这些子智能体分别负责搜索、下载、分类、总结与汇编任务。

在协同工作下，系统将超过 200 篇原始文章按主题整理至 6 个分类文件夹，并生成了一份结构清晰的综合摘要报告。报告中所有引用均明确标注了对应的原始文章来源。

三、AI 办公质量提升近 60%，K2.5 能处理大规模办公任务

不仅如此，K2.5 已经开始熟练掌握 Office 套件的核心技能。

其能够端到端处理高密度、大规模的办公任务，该模型能解析大规模高密度输入，协调多步骤工具使用，并通过直接对话生成专业级输出成果，包括 Word、Excel、PPT 和 PDF。

KImi 团队针对真实职场场景，设计了两套内部专家生产力基准测试。AI 办公基准测试评估端到端的办公输出质量，而通用智能体基准测试则以人类专家表现为标准，衡量多步骤生产级工作流的表现。

在这两项测试中，在两项基准测试中，K2.5 的性能分别比 K2 Thinking 提升了59.3%和24.3%。

kimi 内部专家生产力基准测试

K2.5 智能体支持高级办公任务，例如在 Word 中添加批注、使用数据透视表构建财务模型、在 PDF 中编写 LaTeX 公式，并能处理长达万字的论文或百页文档等长篇输出。

例如生成包含图片的 100 个镜头的分镜脚本表格：

给技术报告增添行内注释：

从数据中提取 30 个带密码的工资单 PDF 文件：

结语：月之暗面或将着重多模态及智能体集群能力

一周前，市场还在为月之暗面在 20 天内估值暴涨约 34 亿人民币的消息而惊叹。一周后，这家北京 AI 独角兽就开源了新模型。

此次开源的 K2.5 模型，最亮眼的就是其 " 智能体集群 " 能力，将 AI 从执行单一指令的工具，升级为能自主调度、并行处理上千步骤的 " 团队 "，而这正直指企业级应用的核心痛点：复杂、高成本、长周期的知识工作流程自动化。

整体来看，这是一次聚焦于提升模型实际效能、扩展多模态能力的技术迭代。此次发布展示了月之暗面近期的研发重心与成果，此前曝光的新融资或为这类深度研发提供更多支持。

宙世代

一起剪

相关标签