每日经济新闻 9小时前
13小时编码、5天自主运行!Kimi K2.6开源“硬刚”闭源巨头,长程战力能否撕开AGI工业化新赛道?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

月之暗面(Moonshot AI)Kimi 再次出招。

4 月 20 日深夜,Kimi 发布并开源 Kimi K2.6 模型。据其介绍,该模型具备行业领先(state-of-the-art)的代码能力、长程任务执行能力与 Agent(智能体)集群能力。

K2.6 延续了上一代 K2.5 的技术路线,在编码与智能体能力上进一步升级。其 Agent 集群调度能力实现量级突破,最高可支持 300 个子 Agent 并行完成 4000 个协作步骤,大幅提升了在复杂长流程任务中的处理效率。

当前,大模型产业的竞争焦点正从 " 通用对话能力 " 转向长周期、多工具协同的真实工作流落地,模型的长时间稳定工作能力正成为核心赛点。

此前 3 月,月之暗面创始人杨植麟在 2026 年中关村论坛年会全体会议上指出,大模型的本质是将能源转化为智能,规模化是 AI 发展的核心基础,但规模化并非暴力堆砌算力与能源,而是以提升效率为核心。对此,Kimi 围绕三大方向构建规模化策略:Token(词元)效率、长上下文、Agent 集群,力求在有限资源下实现智能最大化。

支持 13 小时不间断编码,5 天自主运行,深度检索能力超越 GPT-5.4

从多项权威基准测试结果来看,K2.6 在通用智能体、编程、视觉智能三大方向上均有提升。

在博士级难度的 " 人类最后的考试(Humanity's Last Exam)" 全工具测试中,K2.6 以 54.0% 的得分登顶。在评估 Agent 深度检索能力的 DeepSearchQA 测评中,以 92.5% 的得分领先 GPT-5.4、Gemini 3.1 Pro 以及 Claude Opus 4.6。此外,在 BrowseComp、OSWorld-Verified 等智能体测评中,Kimi K2.6 均展现出行业前列的成绩。

图片来源:月之暗面官方微信号

但与此同时,K2.6 仍在部分维度与头部闭源模型存在一定差距。SWE-bench 多语言测试中,其得分略低于 Claude Opus 4.6 与 Gemini 3.1 Pro。Toolathlon 工具调度任务以及 MathVision 等视觉智能测评中,其表现与 GPT-5.4 也存在略微差距。

从本次 K2.6 能力提升的方向来看,其核心价值更多体现在:开源生态中正演进出能够胜任长周期、复杂任务的能力。而这一技术方向,也已成为当下国产大模型行业的共同选择。

近月来,OpenClaw(俗称 " 小龙虾 ")等自主 Agent 应用快速崛起。区别于传统对话式交互,这类场景要求 AI 跨应用不间断自主运行,主动完成任务规划、代码执行、跨平台协同操作,对模型上下文承载、长期记忆连续性、多步骤推理稳定性均提出了更高要求。

针对自主 Agent 赛道,Kimi K2.6 也增强了 Agent 的自主化执行能力,在 OpenClaw、Hermes Agent 等自动化任务场景表现突出。官方披露,其 RL(Reinforcement Learning,强化学习)基础设施团队已基于 K2.6 Agent 实现连续 5 天不间断自主稳定运行,充分验证了长时工作可靠性。

杨植麟曾在发布 K2.5 时介绍其 Agent 集群能力:" 在 K2.5 上,我们从单个 Agent 进化到了 Agent 集群,从单个专家进化成了一个专业团队。" 他具体解释道:K2.5 会创建并协调一大群专项 Agent 并行工作,这些专项 Agent 本质上都是 K2.5 的分身,各自承担不同的角色和子任务,没有任何预设规则,所有的角色分配和任务拆解都是由 K2.5 现场即时决定。

迭代至 K2.6,Agent 集群架构完成全面扩容升级:支持调度不同技能特长的 Agent 进行互补协作、组合各项能力。架构上扩展至最多 300 个子 Agent 并行完成 4000 个协作步骤(K2.5 为最多 100 个分身,并行处理 1500 个步骤),实现了更大规模的并行化。

代码能力作为本次迭代核心亮点,本次更新中,长程编码能力的提升是主要突破:K2.6 支持不间断编码 13 小时,完成超过 4000 行代码的编写或修改,覆盖 Rust、Go、Python 等编程语言,以及前端、运维、性能优化等场景。通过代码与视觉能力的深度融合,K2.6 能够交付专业级 Web 应用。

图片来源:每经媒资库

Kimi 估值 3 个月已翻 4 倍 杨植麟能否开辟 AGI 工业化新赛道?

在 2026 年中关村论坛年会后,杨植麟表达了他对 Agent 的发展洞察。他认为,与传统对话式 AI" 即时问答 " 不同,真正受用户信赖的 Agent 必须具备长时间持续工作的能力,能够承接更复杂的任务。这背后需要突破训练难度、数据积累、上下文承载等多重技术瓶颈。

杨植麟指出,这种能力的突破将带来生产力的指数级提升,Agent 或将成为生产力的核心载体,其产生的 Token(词元)在一定程度上等价于 GDP(国内生产总值),长期甚至可能让现有 GDP 实现数倍增长。

《每日经济新闻》记者(以下简称 " 每经记者 ")注意到,这一技术洞察直接体现在 Kimi 近期的迭代节奏中。继 K2.5 首次引入 Agent 集群概念后,Kimi 开始在更基础的架构层面展开探索。

今年 3 月发布的技术报告中,团队对大模型核心结构的残差连接进行了重新设计,让每一层可选择性关注此前各层的输出。这一改进获得了美国企业家马斯克 " 令人印象深刻 " 的评价,以及 OpenAI 前研究副总裁 Jerry Tworek" 深度学习 2.0 要来了 " 的点评。

此外,杨植麟在中关村论坛年会上预测了大模型训练的下一阶段:" 越来越多的研究工作将由 AI 主导。未来每个研究员将配备海量的 Token,由 AI 自动合成新任务、构建新环境、定义最优奖励函数,甚至自主探索全新网络架构。在这一趋势下,整个 AI 领域的研发速度将进一步加快。"

在技术快速演进的同时,Kimi 在资本市场上得到了同步反馈。

市场知情人士此前向每经记者透露,3 月 14 日 Kimi 估值已攀升至 180 亿美元,3 个月内翻了 4 倍,且新一轮 10 亿美元融资正在推进中。不到 3 个月完成 3 轮融资,创下国内大模型连续融资纪录,也让 Kimi 成为国内估值最快突破百亿美元的独角兽企业。

估值上升的原因有两方面。一方面,产品迭代与付费收入出现较快增长:2026 年开年以来,K2.5 模型、Kimi Claw 先后上线并升级,适配多办公平台,带动 1 月底以来 20 天收入超过 2025 年全年;Stripe 数据显示,其个人订阅订单 1 月环比增长 8280%,2 月再增长 123.8%,进入全球榜单前十。另一方面,AGI 赛道整体升温,智谱、MiniMax 港股上市后市值的上涨也为行业头部玩家提供了估值支撑。

当前,AGI 行业已从参数竞赛转向技术效率与落地能力的竞争,Agent 时代的竞争规则正在被重新书写,转向如何做得更久、更稳、更完整。Kimi 以技术演进为主线,在这一过程中逐步确立自身定位。而大模型竞争格局是否因此生变,仍有待观察各厂商后续的迭代节奏与生态建设能力。

每日经济新闻

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

kimi 开源 ai 考试 中关村
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论