当前,大多数编排框架的设计初衷是支持运行几秒到几分钟的代理任务。然而,随着代理技术的进步,部分代理已经能够连续运行数小时甚至数天,这暴露了现有框架在长时间任务中的不足。
尽管像 Anthropic 的 Claude Code 和 OpenAI 的 Codex 等模型通过多会话任务、子代理和后台执行初步支持了长时间运行代理,但这些系统仍存在局限性,往往假设代理会在有限时间内完成工作流。

在此背景下,开源模型提供商 Moonshot AI 推出了其新模型 Kimi K2.6,旨在突破这一限制。
Moonshot 表示,Kimi K2.6 专为持续执行而设计,内部测试案例显示,该模型能够支持运行数小时甚至连续五天的代理任务,自主处理监控、事件响应等复杂操作。
然而,这种长时间运行代理的普及也揭示了一个关键问题:大多数编排框架并未针对持续、有状态的任务进行优化。Kimi K2.6 通过改进版的 Agent Swarms 方法管理多达 300 个子代理,并能 " 同时执行跨越 4,000 个协调步骤 ",相比 Claude Code 和 Codex 更依赖模型而非预定义角色。
Kimi K2.6 现已上线 Hugging Face,并可通过 API、Kimi Code 及 Kimi 应用获取。
实践者指出,长时间运行代理的核心挑战远超提示工程所能解决的范畴。例如,开发者 Maxim Saplin 在其博客中提到:" 问题根源在于编排本身的脆弱性,这是产品设计与训练方法的问题,而非单纯依靠严格提示就能解决。"
此外,长时间运行代理还面临状态维持难题,尤其是在环境动态变化的情况下。ArmorCode 首席产品官 Mark Lambert 指出,治理能力已落后于部署速度," 这些代理系统生成代码和变更的速度超过了大多数组织审查、修复或治理的能力。"
F5 首席产品官 Kunal Anand 则认为,长时间运行代理代表了一种比当前企业准备应对的更大的架构转变," 我们正从脚本、服务、容器、函数转向将代理作为持久基础设施,这催生了许多尚未命名的新类别。"
Moonshot AI 强调,Kimi K2.6 的目标是应对 " 通常需要数周或数月集体人类努力才能完成的真实世界挑战 "。据技术文档披露,该模型在 10 小时内从零构建了一个完整的 SysY 编译器,相当于四名工程师两个月的工作量,并通过了所有 140 项功能测试。
团队还将 K2.6 应用于复杂工程任务,例如对一个已有八年历史的开源金融匹配引擎进行全面改造。一次 13 小时的执行过程显示,模型迭代了 12 种优化策略,发起了超过 1,000 次工具调用,精确修改了超过 4,000 行代码。
更令人印象深刻的是,Moonshot 团队利用 K2.6 构建了一个自主运行五天的代理,负责管理监控、事件响应和系统操作。
来源:布谷财经


登录后才可以发布评论哦
打开小程序可以发布评论哦