详解Kimi K2 Thinking：谢谢DeepSeek，我先去干掉GPT-5了

" 这是又一次 DeepSeek 式的辉煌时刻吗？开源软件再次超越闭源软件。"

2025 年 11 月 6 日，Hugging Face 联合创始人 Thomas Wolf 在 X 上的感慨，精准概括了 Kimi K2 Thinking 模型发布后所引发的讨论。

Kimi K2 Thinking 在多个基准测试中取得了亮眼的成绩，追平、乃至超过了 SOTA 的闭源模型。例如，在 HLE（Humanity's Last Exam）text-only 子集的基准上，其工具增强版得分达到 44.9%，超过了 GPT-5 的 41.7%。

Kimi K2 Thinking 是基于 Kimi K2 模型训练而来的，专注于提升 Agentic 能力和推理能力。这是一个拥有 1 万亿总参数的混合专家模型（Mixture-of-Experts，MoE），每次推理激活约 320 亿参数，支持 256k 的上下文窗口，并采用了原生 INT4 量化技术。设计思路是在保持巨大模型规模的同时，想办法控制计算成本和训练成本。据 CNBC 援引知情人士的报道，该模型的训练成本仅为 460 万美元。作为对比，DeepSeek 披露的 V3 训练成本（租赁价，正式训练阶段）是 560 万美元，R1 为 29.4 万美元。这里主要考虑的是 GPU 预训练费用，不包括研发、基础设施等投资。

Kimi K2 Thinking 的一个核心特性是 Agent 能力，官方宣称它能够连续执行 200-300 次工具调用来解决复杂问题。Grok-4 等闭源阵营广泛采用 RL 提升工具使用与长程规划，但在开源模型中看到如此的实现还是第一次。它表明开源社区正在快速跟上智能体技术的前沿，同时也对模型托管服务提出了更高的要求。

Kimi K2 Thinking 目前还没有发布技术报告，仅有技术博客、使用文档，未披露它的训练数据、RL 细节或配方。模型发布后不久，技术社区的关于模型架构本身的讨论也开始出现。在 X 和 Reddit 上，一张将其与 DeepSeek 模型并排比较的架构图又开始流传，引发了关于其技术渊源的讨论。

在 DeepSeek 的 R2" 难产 " 已久、社区翘首以盼的背景下，Kimi 带着一个架构存在继承关系且同样是开源 SOTA 推理模型的模型出现，让人恍惚以为 Kimi 是替 DeepSeek 把 R2 发了。

架构的 " 继承 " 与工程的 " 魔法 "

LLM 研究工程师 Sebastian Raschka 对此进行了详细的分析，他在 threads 指出了两者间的具体异同：

• 每个 MoE 层的专家数量增加约 1.5 倍（384 vs 256）

• 更大的词汇表（160k vs 129k）

•K2 每个 token 激活约 320 亿参数（DeepSeek R1 为 370 亿）

•MoE 之前的密集 FFN 块更少

" 简而言之，Kimi K2 本质上就是一个规模上略作调整的 DeepSeek V3/R1。它的改进主要体现在数据和训练配方上。"

Raschka 的分析指出了一个关键事实，Kimi K2 Thinking 对 DeepSeek 核心架构的 " 继承 " 是显而易见的，包括 MoE 机制、MLA（多头潜在注意力）等设计。这是在一个已被验证的基座上，根据自身的目标进行了针对性的调整和优化。例如，减少注意力头和激活参数量，旨在降低推理成本；而增加专家数量和词汇表，则是为了增强模型的知识容量和表达能力。这种 " 站在巨人肩膀上 " 的做法，是开源精神最直接的体现。

除了对 DeepSeek 架构的继承，Kimi K2 Thinking 的成果也离不开对整个开源生态成果的广泛 " 化用 "。从底层用于加速注意力计算的 FlashAttention，到 K2 技术报告中提到的、为解决训练不稳定性而改进的 MuonClip 优化器，再到各种数据处理和后训练方法论，都整合了开源社区的集体智慧。

如果说架构和开源技术决定了模型的骨架，那么让其血肉丰满的，则是月之暗面自身的工程实现能力。这主要体现在三个方面：

1、训练稳定性：在长达 15.5 万亿 tokens 的预训练过程中，Kimi K2 Thinking 实现了 " 零 loss spike（损失尖峰）"。这意味着训练过程极其稳定，无需因模型崩溃而进行成本高昂的回滚。这对于万亿参数规模的模型来说，是一项重要的工程成就。

2、原生量化推理：Kimi K2 Thinking 支持原生 INT4 量化推理，据称能在极小的性能损失下，将推理速度提升约 2 倍，并显著降低部署所需的 GPU 显存。这是将大参数模型从实验室推向广泛应用的关键。

3、长程任务执行：模型能够稳定执行 200-300 轮工具调用，这不仅考验了模型的推理能力，也检验了其系统鲁棒性。在长达数百步的交互中，模型必须能处理各种异常，背后需要一套复杂的工程机制。

Kimi 团队在选择和整合这些开源技术时的具体决策，及其工程团队最终的执行能力，共同构成了 Kimi K2 Thinking 取得当前成果的基础。这种技术路线和成功范式，让许多人联想到了当初 R1 发布时的情景。它承接 DeepSeek 的 MLA+MoE 高效架构与 " 可验证任务优先 " 的数据 / 奖励取向，用工程手段（如 MuonClip、长上下文、工具链）把能力做稳。不同点在于 K2 Thinking 的开放形态与目标更偏应用交付。

SOTA 之外的取舍

对 Kimi K2 Thinking 的全面审视，不能只停留在 Benchmark 的分数上。一个绕不开点是其 Benchmark 成绩的来源。Kimi K2 Thinking 在技术博客中展示的许多 SOTA 分数，是基于一个特殊的 "Heavy" 模式获得的。根据官方在 Hugging Face 上的说明，这个模式通过并行运行多达 8 个推理然后通过反思性地聚合所有输出来生成最终结果。这种做法在学术界和模型竞赛中很常见。在今年 7 月 9 日的 Grok 4 的发布会上，xAI 公布 Grok 4 Heavy 的 HLE 得分为 44.4%，text-only 子集得分 50.7%。

这种 heavy 模式也带来一些问题，一是资源消耗巨大，普通用户通过 API 或本地部署几乎不可能复现这种性能，二是它造成了 Benchmark 分数与模型单实例真实能力之间的差距。用户实际能体验到的标准模式，与榜单上的 " 野兽模式 " 不是一回事。

对效率的追求，也体现在模型底层的工程决策中，而这些决策往往遵循着性能与成本的交换原则。例如，模型采用的原生 INT4 量化，虽然官方宣称性能损失极小，但从 FP16 到 INT4 的精度压缩是巨大的。这种量化在标准评测集上可能表现良好，但在更长、更复杂的推理链条中，精度损失的累积效应是否会影响任务的最终成功率，仍有待更广泛的实际应用检验。

同样，将注意力头从 128 个减少到 64 个，也是 Kimi 团队为降低内存带宽和计算开销做出的主动选择。但 K2 技术报告也承认，更多的注意力头通常能带来更好的模型质量。这意味着，Kimi K2 为了更高的推理效率，在模型能力上做出了一定的妥协。

Kimi K2 Thinking 对 Agent 能力的押注，也带来了其他维度的局限性。官方公布的基准测试显示，K2 Thinking 在 " 智能体推理 " 和 " 智能体搜索 " 两项指标上超越了 OpenAI 与 Anthropic 的顶级模型（GPT-5 和 Sonnet 4.5 Thinking），但在 " 编程能力 " 方面尚未登顶。

在前沿模型纷纷将多模态作为标配的今天，Kimi K2 Thinking 仍然是一个纯文本模型。这种差异在处理涉及视觉或空间推理的任务时尤为明显。例如，在生成一个 " 鹈鹕骑自行车 " 的 SVG 图像这类任务上，纯文本模型可能会因为缺乏对物理世界的基本视觉理解而存在一些问题：

Kimi K2 Thinking 的发布，给人的感觉就像是开源 AI 社区又一次集体狂欢。它站在 DeepSeek 这样所有优秀开源成果之上，想明白了自己此阶段最重要的性能目标，对细节进行改进，对训练效率进行提高，得到一个可以在今天最关键方向上超过闭源最强模型的新开源模型。然后这个模型也给开源社区带来反馈和启发，同时它也是 Kimi 下一代更大更完整模型的一块拼图——也许下一次 DeepSeek 时刻不远了，而且它可能真的不需要由 DeepSeek 自己带来。

宙世代

一起剪

相关标签