新智元 2025-11-07
离GPT-5最近的一次!中国1万亿参数开源巨兽突然爆火
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

昨天,月之暗面发布全新模型 Kimi K2 Thinking,一上线就挤爆了服务器。

思考,是它的核心卖点,自称是开源的「思考 Agent 模型」。

它同样采用了 MoE 架构,总参数约 1 万亿,每次激活约 320 亿,上下文 256K token。

在各大基准测试中,Kimi K2 Thinking 性能表现亮眼。

尤其是,在 BrowseComp、HLE 测试中,实力完全碾压 GPT-5、Claude Sonnet 4.5。

在 Tau2 Bench Telecom 基准测试中,K2 Thinking 位列第一。

最关键的是,在无人干预情况下,K2 Thinking 可连续调用 200-300 次工具。

国外研究者 Nathan Lambert 称它为:「开源模型距闭源前沿最近的一次。」

这句话在技术圈广为流传,人们也开始重新审视这款模型。

不只是聊天工具,K2 Thinking 更像是一个会自己推理、自己动手的智能体。

一款真正会思考的模型

Kimi K2 Thinking 没有强调算力更大,而是强调更会「思考」。

这些配置让它在处理长文本、复杂任务时能维持更稳定的推理过程。

苹果大牛 Awni Hannun 测试后惊叹道:

1 万亿参数,只用 2 台 M3 Ultra 芯片的 Mac 电脑即可流畅运行,而且 int4 压缩后性能几乎无损。

通过 mlx-lm 并行技术,它生成了大约 3500 个 token,速度每秒 15 个 token。

但真正让人关注的,是它的「思考能力」。

如前所述,K2 Thinking 可以在一次任务中连续执行 200 到 300 次工具调用,全程无需人工干预。

有网友实测「工具调用」,立即制作出如下的数学和物理讲解动画。

不同于其他模型的胡编乱造,它在面对复杂问题时,会自己拆解步骤、搜索信息、调用外部工具、再整合结果。

团队把这种机制称为「交替思考」——模型在「思考」和「执行」之间循环往复,让推理更连贯。

K2 Thinking 在性能上的表现也很亮眼。

在 Humanity ’ s Last Exam(HLE)和 BrowseComp(网页搜索综合能力)任务上,成绩已经接近甚至超过 GPT-5 和 Claude Sonnet 4.5。

Kimi K2 Thinking 与 GPT-5、Claude Sonnet 4.5 在多项基准测试中的表现

除了推理表现,它在工程落地上也做了不少优化。

K2 使用量化感知训练(QAT) 对 MoE 模块进行 INT4 权重量化,在保证性能的同时,将生成速度提升了约两倍。

除了推理和搜索任务,K2 Thinking 在编码、工具使用、数学推理等更细分的测试中表现也很突出。

在 SWE-bench、LiveCodeBench、GPQA-Diamond 等任务上,它的成绩已经超过 DeepSeek、GPT-4 Turbo 等多个主流模型,显示出更强的「执行力」。

Kimi K2 Thinking 在多项编程与数学任务中的表现对比

这意味着,K2 Thinking 的测试成绩就是它在真实环境下的表现,而非理想化打分。

它目前已经在 kimi.com 上线,并开源 API 和模型权重,开发者可以直接试用。

从实验室到真实场景,这个模型的「思考能力」明显超过了现有的其他模型。

智能体编码一流,300 次工具调用

这一次,月之暗面没再让模型停留在论文里。

K2 Thinking 不是展示品,而是一台真正能被人用起来的智能体。

发布当天,团队同步上线了 kimi.com聊天模式、开放了API 接口,还在 Hugging Face 公布了完整权重。

https://huggingface.co/moonshotai/Kimi-K2-Thinking?utm_source

开发者不需要等待内测邀请,也不用注册繁琐流程,任何人都能直接使用。

K2 Thinking 的从训练开始,到优化,再到上线,周期不到半年。

在这个动辄以年为单位更新的大模型时代,这个速度意味着它已具备完整的工程化能力。

打开 kimi.com,就能直接体验到 K2 Thinking 的思考过程。

与一般聊天模型不同,它在生成答案前,会清晰地展示自己的推理链。

此外,研究人员特别提到,K2 Thinking 在软件和编码任务上进步显著。

它在 SWE-Multilingual 测试中得分 61.1% ,在 SWE-Bench Verified 测试中得分 71.3%,在 Terminal-Bench 测试中得分 47.1%。

这无疑证明了,该模型在 HTML、React 等方面的任务上有了很明显的进步。

写代码前,先写计划

当用户输入「分析我发给你的 CSV 文件,并生成图表来支持你的分析」时,K2 不会直接输出代码。

他会先列出自己的行动方案:首先,加载数据集,接下来,筛选数据集,然后,分析内容,调用绘图库,最终生成结果。

有了行动方案,它才会逐步生成代码,执行、验证、修正。

如果出错,它会提示「正在重新规划」,然后自动尝试新方案。整个过程,都能在屏幕上看到。

最终,我们能得到 K2 生成的数据分析图表。

仅仅调用 14 次 python,就能生成这样完美的可视化图表、准确的统计数据以及包含详细分析的交互网页。

私人定制行程:比管家还靠谱

你是否想过拥有一个完美管家?那 K2 可以满足你的需求。

你只要提出你的需求,比如「我的预算是 1000 美元,给我规划我的演唱会之旅」。

输入之后,K2 就会像一位尽职尽责的管家,询问你的喜好、目的、工作安排,甚至查阅你的谷歌邮件。

之后,他开始搜索,查机票、看演唱会场次,甚至会考虑到演唱会附近的餐厅。简直比管家还贴心!

最后,结合各方数据,交出最适合你的演唱会计划。

而做到这些,仅仅调用了 17 次工具!很难想象如果亲自做计划,要耗时多久。

一针见血的数学讲解员

除了长段的提示词,短短几句话,K2 Thinking 也能完美运行。

比如,对它说「解释二维梯度下降」。

它就能调用工具,以最直观、形象的方式向你作出解释:

蓝色的等高线越靠近中心,函数值越小;黄色的路径是优化算法从起点到最优点的下降轨迹;红色小箭头表示梯度(∇f)的方向;黄色点表示当前的模型参数位置,它沿着梯度的反方向移动。

配合上动图,一目了然。

触手可及的「细胞战」

不仅仅是数学,K2 Thinking 甚至进军生物学领域!

你只要输入「做一个可以调节免疫参数的病毒模拟程序」,就可以得到一个可交互的病毒仿真系统。

红蓝两种粒子在屏幕上相互追逐、碰撞、吞噬。拖动滑块,就能调整病毒复制率、免疫细胞数量。

对于 Kimi K2 Thinking 真实表现,你怎么看?

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

mac 开源 物理 芯片 数学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论