离GPT-5最近的一次！中国1万亿参数开源巨兽突然爆火

昨天，月之暗面发布全新模型 Kimi K2 Thinking，一上线就挤爆了服务器。

思考，是它的核心卖点，自称是开源的「思考 Agent 模型」。

它同样采用了 MoE 架构，总参数约 1 万亿，每次激活约 320 亿，上下文 256K token。

在各大基准测试中，Kimi K2 Thinking 性能表现亮眼。

尤其是，在 BrowseComp、HLE 测试中，实力完全碾压 GPT-5、Claude Sonnet 4.5。

在 Tau2 Bench Telecom 基准测试中，K2 Thinking 位列第一。

最关键的是，在无人干预情况下，K2 Thinking 可连续调用 200-300 次工具。

国外研究者 Nathan Lambert 称它为：「开源模型距闭源前沿最近的一次。」

这句话在技术圈广为流传，人们也开始重新审视这款模型。

不只是聊天工具，K2 Thinking 更像是一个会自己推理、自己动手的智能体。

一款真正会思考的模型

Kimi K2 Thinking 没有强调算力更大，而是强调更会「思考」。

这些配置让它在处理长文本、复杂任务时能维持更稳定的推理过程。

苹果大牛 Awni Hannun 测试后惊叹道：

1 万亿参数，只用 2 台 M3 Ultra 芯片的 Mac 电脑即可流畅运行，而且 int4 压缩后性能几乎无损。

通过 mlx-lm 并行技术，它生成了大约 3500 个 token，速度每秒 15 个 token。

但真正让人关注的，是它的「思考能力」。

如前所述，K2 Thinking 可以在一次任务中连续执行 200 到 300 次工具调用，全程无需人工干预。

有网友实测「工具调用」，立即制作出如下的数学和物理讲解动画。

不同于其他模型的胡编乱造，它在面对复杂问题时，会自己拆解步骤、搜索信息、调用外部工具、再整合结果。

团队把这种机制称为「交替思考」——模型在「思考」和「执行」之间循环往复，让推理更连贯。

K2 Thinking 在性能上的表现也很亮眼。

在 Humanity ’ s Last Exam（HLE）和 BrowseComp（网页搜索综合能力）任务上，成绩已经接近甚至超过 GPT-5 和 Claude Sonnet 4.5。

Kimi K2 Thinking 与 GPT-5、Claude Sonnet 4.5 在多项基准测试中的表现

除了推理表现，它在工程落地上也做了不少优化。

K2 使用量化感知训练（QAT） 对 MoE 模块进行 INT4 权重量化，在保证性能的同时，将生成速度提升了约两倍。

除了推理和搜索任务，K2 Thinking 在编码、工具使用、数学推理等更细分的测试中表现也很突出。

在 SWE-bench、LiveCodeBench、GPQA-Diamond 等任务上，它的成绩已经超过 DeepSeek、GPT-4 Turbo 等多个主流模型，显示出更强的「执行力」。

Kimi K2 Thinking 在多项编程与数学任务中的表现对比

这意味着，K2 Thinking 的测试成绩就是它在真实环境下的表现，而非理想化打分。

它目前已经在 kimi.com 上线，并开源 API 和模型权重，开发者可以直接试用。

从实验室到真实场景，这个模型的「思考能力」明显超过了现有的其他模型。

智能体编码一流，300 次工具调用

这一次，月之暗面没再让模型停留在论文里。

K2 Thinking 不是展示品，而是一台真正能被人用起来的智能体。

发布当天，团队同步上线了 kimi.com聊天模式、开放了API 接口，还在 Hugging Face 公布了完整权重。

https://huggingface.co/moonshotai/Kimi-K2-Thinking?utm_source

开发者不需要等待内测邀请，也不用注册繁琐流程，任何人都能直接使用。

K2 Thinking 的从训练开始，到优化，再到上线，周期不到半年。

在这个动辄以年为单位更新的大模型时代，这个速度意味着它已具备完整的工程化能力。

打开 kimi.com，就能直接体验到 K2 Thinking 的思考过程。

与一般聊天模型不同，它在生成答案前，会清晰地展示自己的推理链。

此外，研究人员特别提到，K2 Thinking 在软件和编码任务上进步显著。

它在 SWE-Multilingual 测试中得分 61.1% ，在 SWE-Bench Verified 测试中得分 71.3%，在 Terminal-Bench 测试中得分 47.1%。

这无疑证明了，该模型在 HTML、React 等方面的任务上有了很明显的进步。

写代码前，先写计划

当用户输入「分析我发给你的 CSV 文件，并生成图表来支持你的分析」时，K2 不会直接输出代码。

他会先列出自己的行动方案：首先，加载数据集，接下来，筛选数据集，然后，分析内容，调用绘图库，最终生成结果。

有了行动方案，它才会逐步生成代码，执行、验证、修正。

如果出错，它会提示「正在重新规划」，然后自动尝试新方案。整个过程，都能在屏幕上看到。

最终，我们能得到 K2 生成的数据分析图表。

仅仅调用 14 次 python，就能生成这样完美的可视化图表、准确的统计数据以及包含详细分析的交互网页。

私人定制行程：比管家还靠谱

你是否想过拥有一个完美管家？那 K2 可以满足你的需求。

你只要提出你的需求，比如「我的预算是 1000 美元，给我规划我的演唱会之旅」。

输入之后，K2 就会像一位尽职尽责的管家，询问你的喜好、目的、工作安排，甚至查阅你的谷歌邮件。

之后，他开始搜索，查机票、看演唱会场次，甚至会考虑到演唱会附近的餐厅。简直比管家还贴心！

最后，结合各方数据，交出最适合你的演唱会计划。

而做到这些，仅仅调用了 17 次工具！很难想象如果亲自做计划，要耗时多久。

一针见血的数学讲解员

除了长段的提示词，短短几句话，K2 Thinking 也能完美运行。

比如，对它说「解释二维梯度下降」。

它就能调用工具，以最直观、形象的方式向你作出解释：

蓝色的等高线越靠近中心，函数值越小；黄色的路径是优化算法从起点到最优点的下降轨迹；红色小箭头表示梯度（∇f）的方向；黄色点表示当前的模型参数位置，它沿着梯度的反方向移动。

配合上动图，一目了然。

触手可及的「细胞战」

不仅仅是数学，K2 Thinking 甚至进军生物学领域！

你只要输入「做一个可以调节免疫参数的病毒模拟程序」，就可以得到一个可交互的病毒仿真系统。

红蓝两种粒子在屏幕上相互追逐、碰撞、吞噬。拖动滑块，就能调整病毒复制率、免疫细胞数量。

对于 Kimi K2 Thinking 真实表现，你怎么看？

宙世代

一起剪

相关标签