
4 月 20 日晚间,月之暗面(Moonshot AI)正式发布并开源最新旗舰模型 Kimi K2.6。该模型在长程编码、Agent 集群调度及自主执行能力上实现显著跃升,多项基准测试成绩持平或超越 GPT-5.4、Claude Opus 4.6 等国际顶尖闭源模型。
一周之内,Anthropic 发布 Claude Opus 4.7、阿里推出 Qwen3.6-Max-Preview,DeepSeek V4 亦将于下旬发布。Kimi K2.6 在这个密集窗口期登场,是月之暗面在 AI 竞争从 " 算法创新 " 转向 " 工程化落地 " 关键节点的一次战略展示。
长程编码:从单轮补全到系统级优化

与此前大模型在代码任务中多局限于 " 单轮补全 " 或 " 简单脚本编写 " 不同,Kimi K2.6 的核心进步在于处理复杂系统工程的能力。据官方技术博客披露,K2.6 可自主完成从需求分析、代码实现、测试验证到性能优化的全流程闭环,单次任务可修改超过 4000 行代码。
两项实测案例展现了这一能力。
案例一:Zig 语言重写推理引擎
在 Mac 本地部署 Qwen3.5-0.8B 模型时,K2.6 跨语言使用小众的 Zig 语言进行推理优化,历经 12 小时连续运行、4000 余次工具调用及 14 轮迭代,将推理吞吐量从 15 tokens/s 提升至 193 tokens/s,最终速度超越主流推理框架 LM Studio 约 20%。

案例二:8 年引擎的性能重构
在对拥有 8 年历史的开源金融撮合引擎 exchange-core 的优化中,K2.6 在 13 小时的执行过程中迭代了 12 种优化策略,发起 1000 余次工具调用,通过分析 CPU 与内存火焰图定位隐藏瓶颈,将核心线程拓扑从 4ME+2RE 重构为 2ME+1RE。即便引擎已接近性能极限,K2.6 仍将中位吞吐量从 0.43 提升至 1.24 MT/s(提升 185%),峰值吞吐量从 1.23 提升至 2.86 MT/s(提升 133%)。

" 这不再是简单的 ' 做题 ',而是在解决真实的工程问题。" 多位开发者在体验后反馈,K2.6 已具备从编码到前端设计再到全栈交付的专业级 Web 应用构建能力。在官方的 Code-Driven Design 内部评测中,K2.6 在落地页构建、全栈应用开发等四类任务上表现接近 Google AI Studio。
基准测试:编码领先,推理仍有差距
官方公布的基准测试数据显示,K2.6 在工程类任务中全面领先,但纯推理能力与国际顶尖闭源模型仍有距离。

编码与 Agent 任务方面,K2.6 在 SWE-Bench Pro 中取得 58.6%,领先所有参与对比的模型;在 Terminal-Bench 2.0 中以 66.7% 超越 GPT-5.4 和 Claude Opus 4.6 的 65.4%;在博士级难度的 Humanity's Last Exam(工具增强版)中以 54.0% 位居第一;DeepSearchQA 的 F1 分数达 92.5%,大幅领先 GPT-5.4 的 78.6%。
然而,在不使用工具的纯推理测试中,K2.6 的短板同样明显。HLE-Full 仅得 34.7%,低于 GPT-5.4 的 39.8% 和 Gemini 3.1 Pro 的 44.4%;在视觉推理类基准如 MathVision(87.4% vs GPT-5.4 的 92.0%)上,差距同样存在。这套基准测试描绘了一个清晰的轮廓:K2.6 的工程化与工具调度能力已跻身全球第一梯队,但在纯粹的知识推理和视觉理解层面,仍需持续追赶。
Agent 集群:300 子 Agent 并行,协作步骤三倍扩展
K2.6 的 Agent 集群架构相比 K2.5 实现了三倍量级的扩展——子 Agent 从 100 个提升至 300 个,协作步骤从 1500 步扩展至 4000 步。这种横向扩展的 " 群体智能 " 架构使 K2.6 能够在一次自主运行中并行完成深度搜索、文档分析、网页生成、PPT 制作和表格输出的端到端交付。
案例:天体论文一键转化为学术技能
K2.6 驱动的 Agent 集群将一篇天体物理论文转化为可复用的学术技能,最终产出一份 7000 字的研究论文、一个包含 2 万多条数据记录的结构化数据集及 14 张天文级图表。上传的文档格式不受限—— PDF、表格、PPT、Word 均可转化为技能资产。

官方案例视频截图
在招聘场景中,Agent 集群可基于上传的简历自动生成 100 个子 Agent,分别为用户匹配 100 个加州岗位并定制化简历。官方博客还展示了 30 家零售门店的本地化页面生成案例,300 个子 Agent 各自完成从文案撰写到落地页构建的全流程。
更值得关注的是 Claw Groups 的研究预览。这是一个异构 Agent 生态,允许来自不同设备、运行不同模型、携带各自工具链的 Agent 与人类作为真正的协作者共同运行。K2.6 在其中担任自适应协调者,根据技能画像动态匹配任务,并在 Agent 故障或卡顿时自动重新分配。
月之暗面透露,内部团队已使用 Claw Groups 运行端到端的内容生产和营销活动。这一布局显示出月之暗面正试图从单一模型提供商向 Agent 生态基础设施服务商转型。
商业化:输入成本上涨 58%
在商业层面,以美元计价,Kimi API K2.6 每百万 Token 的输入价格(缓存未命中)为 $0.95,较 K2.5 的 $0.60 上涨约 58%;输出价格为 $4.00,较 K2.5 的 $3.00 上涨约 33%;缓存命中价格则为 $0.16/MTok。上下文窗口为 262,144 tokens(约 256K)。

价格调整背后,是长程编码与 Agent 自主运行带来的 Token 消耗远超传统对话模型。K2.6 支持最长 5 天的持续自主运行,官方内部团队已使用 K2.6 驱动的 Agent 独立运行 5 天,完成监控、事件响应和系统运维任务。这意味着单位任务中的 Token 消耗量远非普通 API 调用可比。
与此同时,Kimi Agent 模式已内置上百个官方推荐技能,并支持将任意高质量文件—— PDF、表格、PPT、Word 文档——转化为可复用技能,捕获并保存文档的结构与风格特征。这种将非结构化数据标准化为 " 技能资产 " 的能力,是月之暗面在企业服务市场构建壁垒的关键布局。
在 Meta 发布闭源旗舰 Muse Spark 的行业背景下,月之暗面坚持将 K2.6 全面开源。
月之暗面创始人杨植麟在 3 月 26 日的中关村论坛年会上明确表态:" 如果模型能力能做到一样的水平,开源会是绝对的胜利。" 在他看来,开源的核心价值在于构建生态共赢的合作模式,通过催生海量应用场景,形成远超闭源模式的市场总量。
Kimi K2.6 的开源,正是这一逻辑的延续。但开源并不等于免费—— API 定价的上涨表明,月之暗面正通过分级计费策略,在保障高端企业用户服务质量的同时探索可持续的 B 端盈利模式。
随着 DeepSeek V4、阿里 Qwen3.6 等重磅模型的集体登场,2026 年大模型行业的洗牌已然加速。K2.6 的基准测试成绩证明,国产开源模型已在工程化场景中站稳第一梯队,但在纯推理和视觉理解能力上仍有追赶空间。开源社区的繁荣与商业化变现之间的平衡,仍是月之暗面乃至整个行业接下来必须面对的长期考题。(本文首发钛媒体 APP,作者 | AGI Signal,编辑 | 秦聪慧)


