中国芯片，Kimi与DeepSeek的隐秘交点

杨植麟的新作业：Kimi K2.6。图片经过 AI 处理

文丨苏扬

编辑丨徐青阳

"K2.6 是我们迄今为止最强代码模型。"Kimi 在公众号中写道。

4 月 20 日晚间，Kimi 正式推出编程、Agent 能力都表现更强的开源模型 K2.6，距离上一个版本 K2.5 发布刚好一个季度左右。

这里还有一个小插曲，传闻本周 DeepSeek V4 也将发布。如果一切按外界预期的推进，这将是 Kimi 和 DeepSeek 的第 N 次撞车。但在更底层的基础设施层面，还有一条暗线：Kimi 和 DeepSeek 这两个大模型创业公司，终将踏入同一条河流——与国产芯片创业公司共进退。

时间倒回 2026 年 3 月份，杨植麟在英伟达 GTC 演讲台，谈及 Kimi 的技术路线图。他说：" 目前普遍使用的很多技术标准，本质上是八九年前的产物，逐渐成为 Scaling 的瓶颈。"

为了解决类似问题，Kimi 给开源社区贡献了首次大规模应用的二阶优化器 MuonClip、让大模型处理长上下文更高效的 Kimi Linear 架构，以及优化深度神经网络层连接的 Attention Residuals。

杨植麟认为，将 Kimi 的进化逻辑归纳为 Token 效率、长上下文以及智能体集群 " 合体 "。刚刚上线的 Kimi K2.6，可以理解为杨植麟在这条 Scaling 路径下新交的一份作业。

Kimi 官网已接入 K2.6

01 代码、Agent，还有呢？

作为最容易标准化的能力项之一，代码是前沿模型的必争之地。

从 K2、到 K2.5、再到 K2.6，Kimi 在几个开源模型上保持着平均一个季度左右的迭代节奏，但由于这是个小版本号，暗示杨植麟手中可能还有更多的底牌。

"K2.6 长程编码能力显著提升，在测试中可以不间断编码 13 小时，编写或修改超过 4000 行代码，"Kimi 在一份传播材料中写道，" 在涵盖了多种复杂端到端任务的、Kimi 内部严格代码评测基准 Kimi Code Bench 中，K2.6 的成绩比 K2.5 提升了约 20%。"

要知道 K2.5 已经是一个非常 " 能打的模型 "，OpenRouter 上 2 月份一度霸榜。一位接近 Kimi 的知情人士贴出了联合创始人张宇韬当时在朋友圈的截图，" 他貌似对这个版本很满意。"

通用 Agent、编程和视觉 Agent 基准测试上，K2.6 的表现

对 OpenClaw、Hermes 这类 Agent 框架，K2.6 的核心提升集中在 API 调用的精准性和长时间运行的稳定性——一个是提升任务执行的成本，一个则是优化任务执行的效率。

1 月份上线的 K2.5 当中，Kimi 提出了 "Agent 集群 " 的概念，将一项任务拆分成多个子项目，自动化分配给不同领域的 Agent 来跟进处理，进而缩短任务处理的时间，同时避免串行任务流下整个项目崩溃的可能性。

Kimi K2.6 的 Agent 集群能力演示

在新的 K2.6 版本中，这个能力被进一步放大，将广度搜索与深度调研、大规模文档分析与长篇撰写以及多格式内容生成进行集成与并行处理，最多支持 300 个子 Agent 并行完成 4000 个协作步骤。

如果要一句话概括 Kimi K2.6 亮点，大致包括：代码和长程任务能力进化、Agent 集群能力进化与主流 Agent 框架适配优化。

如果要从上述的功能特性里面找一个个人的偏好，我认为Agent 集群是最有价值的一个能力，它直接将并行计算爆炸性能力具象化了——无论是代码，还是长程任务的稳定性，这些都是模型迭代必须去做的事情，更重要的是，基于这些能力提升，推动 Agent 的工作方式、效率甚至是交互方式创新。

毕竟，作为用户，我要的不是它告诉我能怎么样，而是它能驱动 Agent 来解决我实实在在的问题，形成有效生产力。

K2.5 上线的时候，一位学界研究员开始利用这款模型开展科研项目，当时他的评价是没有短板，可以作为科研助手。

" 官方提供的多 Agent 确实有效，去年国产的 Agent 很多还是 toy。"

如果 Kimi K2.5 在内外部评价都不错，在这个基础上更进一步的 K2.6，效果会如何呢？

Artifacial Analysis 智能榜单，Kimi K2.6 仅次于三家闭源模型，并领跑开源模型权重榜单

02 路线图里的 " 新故事 "

Kimi 总是时不时给行业搞点新意思，其中就包括杨植麟演讲中路线图里提到 MuonClip、Kimi Linear、Attention Residuals，一些探索也得到了行业顶流的正向打 Call。

3 月中旬，Kimi 发布 Attention Residuals 这篇论文，提出利用注意力机制来改造残差连接，马斯克直接发推称这是 "Kimi 做得令人印象深刻的突破。"

上周末，Kimi 发布了一篇新论文《Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter》，（PrfaaS，预填充即服务），提及 Kimi 在架构上的新探索，核心讨论的仍然 PD 分离 ( Prefill 和 Decode ) 。

PD 分离并不是新话题——模型推理的 Prefill 阶段属于计算密集任务，Decode 阶段则依赖显存带宽，显存要来回读写 KV Cache ——这种架构要解决的是将计算密集型任务和带宽密集型任务解耦，提高算力利用率和吞吐量，进而降本增效。

PD 分离虽好，但也有一个卡点：必须基于同机房的 RDMA 高速网络。

Kimi 的 PrfaaS 这篇论文，核心点在于：基于混合模型（Kimi Linear）大幅缩减了 KV 缓存体积，然后把 Prefill 和 Decode 彻底解耦到不同的异构集群。

论文提及的实验示例显示，PrfaaS 专用预填充集群使用 32 张主打高算力的 H200；本地 PD 解码集群使用 64 张通过 RDMA 内网互联的 H20 GPU；两组集群通过 VPC 专线打通，跨集群总带宽约 100Gbps。测试模型为 1T 参数的 Kimi Linear 混合注意力模型。

实测结果显示，PrfaaS ‑ PD 跨数据中心方案，相比采用 96 卡 H20 同 PD 集群方案，吞吐量提升 54%，P90 TTFT（90% 的用户，从发请求到看到第一个字返回的等待时间）从 9.73s 降至 3.51s，降低 64%，跨数据中心 KV 缓存传输带宽仅占用总带宽 100Gbps 中 13%。

不同上下文长度下，混合架构模型与稠密模型 KV 吞吐量对比

为了证明混合模型架构的优势，论文提到一组实验：8 卡 H200 和 SGLang v0.5.9 推理框架下，对多款主流模型进行基准测试，32K 上下文长度时，采用混合注意力的 MiMo ‑ V2 ‑ Flash 模型 KV 吞吐量仅 4.66Gbps，而同规模稠密注意力模型 MiniMax ‑ M2.5 高达 59.93Gbps，直接证明混合注意力架构可将 KV 缓存传输需求压至普通以太网可承载范围。

"跨数据中心 + 异构硬件，解锁显著降低单 token 成本的潜力。"Kimi 在官方账号上说。

关于 Token 降本，我在《人民想念 DeepSeek》这篇里就提到过，模型、硬件层面都有优化的空间，上海财经大学胡延平教授特地发了一条朋友圈，强调降本这件事不能只靠一个 DeepSeek，" 问题的解决取决于算力供给的成本效率、模型素质的跨代提升、智能范式的持续进阶、工作流和场景拉通的放大效应等。"

这个角度看，Kimi 又给行业讲了一个 Token 降的新故事。

03 中国模型召唤中国芯片

在预填充即服务这篇论文里，更多的人只注意到了跨数据中心这个叙事，而忽略了异构硬件这一点。

需要注意，H200 和 H20 在芯片架构上仍然是 Hopper 架构，论文提到的异构指的是带宽、算力上的异构，它的启示在于：我们可以用一部分算力强的国产卡来做 Prefill，或者带宽强的国产卡来做 Decode，当然也可以与海外卡混用来实现降本增效。

可以说，这是 Kimi 为中国芯片打开的一扇大模型推理的大门。

在一位国产算力人士看来，要接住预填充即服务这种方案带来的这波流量利好，依旧不得不面对生态这个老问题。

过去几年，中国大模型一直因为生态难题被卡在国产算力之外，但还有另一个不被注意的细节：H20 这样的产品，已经断供一年了。换句话说，推理芯片短期内只有国产一个选项。

随着推理需求暴涨，相比于供给，生态挑战将切换为次要问题——中国大模型对国产算力的依赖从过去可用可不用，转变为不得不用。也是因为这一点，很多预测都在讨论 DeepSeek V4 正在适配国产算力。

我和胡延平老师在《给 DeepSeek 的最后一封催更信》中说，适配国产算力，这条路对国产模型来说非常艰难，但从更长远的时间来看又不得不做。一件不得不做的事情，总要有起点，或许 DeepSeek V4 就是那个起点。

现在，DeepSeek V4 还没有来，而 Kimi 已经用自己的实践，为中国模型 + 中国芯片的合体，探索了一条可行的路径。

Kimi 率先作为模型代表伸出橄榄枝，问题现在交给了国产芯片创业公司。

大家还记得在《the Dwarkesh Podcast》最新的播客中，被问及禁止中国出口芯片时黄仁勋的反应吗？他说，芯片又不是铀浓缩，禁售阻挡不了中国芯片的进步，他们依旧可以通过国产芯片暴力堆叠来开发模型。

为什么黄仁勋这样说？DeepSeek 和 Kimi 的下一步，就是标准答案。

宙世代

一起剪

相关标签