Moonshot AI推出Kimi K2.6：专为长时间运行代理设计的开源模型

当前，大多数编排框架的设计初衷是支持运行几秒到几分钟的代理任务。然而，随着代理技术的进步，部分代理已经能够连续运行数小时甚至数天，这暴露了现有框架在长时间任务中的不足。

尽管像 Anthropic 的 Claude Code 和 OpenAI 的 Codex 等模型通过多会话任务、子代理和后台执行初步支持了长时间运行代理，但这些系统仍存在局限性，往往假设代理会在有限时间内完成工作流。

在此背景下，开源模型提供商 Moonshot AI 推出了其新模型 Kimi K2.6，旨在突破这一限制。

Moonshot 表示，Kimi K2.6 专为持续执行而设计，内部测试案例显示，该模型能够支持运行数小时甚至连续五天的代理任务，自主处理监控、事件响应等复杂操作。

然而，这种长时间运行代理的普及也揭示了一个关键问题：大多数编排框架并未针对持续、有状态的任务进行优化。Kimi K2.6 通过改进版的 Agent Swarms 方法管理多达 300 个子代理，并能 " 同时执行跨越 4,000 个协调步骤 "，相比 Claude Code 和 Codex 更依赖模型而非预定义角色。

Kimi K2.6 现已上线 Hugging Face，并可通过 API、Kimi Code 及 Kimi 应用获取。

实践者指出，长时间运行代理的核心挑战远超提示工程所能解决的范畴。例如，开发者 Maxim Saplin 在其博客中提到：" 问题根源在于编排本身的脆弱性，这是产品设计与训练方法的问题，而非单纯依靠严格提示就能解决。"

此外，长时间运行代理还面临状态维持难题，尤其是在环境动态变化的情况下。ArmorCode 首席产品官 Mark Lambert 指出，治理能力已落后于部署速度，" 这些代理系统生成代码和变更的速度超过了大多数组织审查、修复或治理的能力。"

F5 首席产品官 Kunal Anand 则认为，长时间运行代理代表了一种比当前企业准备应对的更大的架构转变，" 我们正从脚本、服务、容器、函数转向将代理作为持久基础设施，这催生了许多尚未命名的新类别。"

Moonshot AI 强调，Kimi K2.6 的目标是应对 " 通常需要数周或数月集体人类努力才能完成的真实世界挑战 "。据技术文档披露，该模型在 10 小时内从零构建了一个完整的 SysY 编译器，相当于四名工程师两个月的工作量，并通过了所有 140 项功能测试。

团队还将 K2.6 应用于复杂工程任务，例如对一个已有八年历史的开源金融匹配引擎进行全面改造。一次 13 小时的执行过程显示，模型迭代了 12 种优化策略，发起了超过 1,000 次工具调用，精确修改了超过 4,000 行代码。

更令人印象深刻的是，Moonshot 团队利用 K2.6 构建了一个自主运行五天的代理，负责管理监控、事件响应和系统操作。

来源：布谷财经

宙世代

一起剪