量子位 16小时前
Kimi K2 Thinking突袭!智能体&推理能力超GPT-5,网友:再次缩小开源闭源差距
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

Kimi K2 Thinking,现已发布并开源

主打一个 " 模型即 Agent",不仅是 Kimi" 迄今能力最强的开源思考模型 ",还掌握边思考,边使用工具的能力——

无需人工干预,即可执行200-300 次连续工具调用

作为今年最受关注的开源模型系列之一,Kimi K2 的 Thinking 版本一上线,就成为热议对象:再次缩小了开源模型与闭源模型的差距。

更多技术细节速览在此:

1TB 参数,激活参数 32B,采用 INT4 而非 FP8。

256K 上下文窗口。

更多专家,更少 head,更多思考。

与 DeepSeek R1 的架构对比,图源 x@rasbt

在人类最后的考试(HLE)、测试自主网络浏览能力的 BrowseComp,和复杂信息收集推理基准测试 SEAL-0 等评测基准中,Kimi K2 Thinking 都刷新了 SOTA,超越 GPT-5、Claude Sonnet 4.5(Thinking)等闭源模型。

Kimi K2 Thinking 的代码和权重均遵循最为宽松的 MIT 协议。新模型也已第一时间上线 kimi.com 和最新版 Kimi 手机应用,即刻就能实测体验。API 可通过 Kimi 开放平台访问。

技术细节

官方提到,K2 Thinking 是月之暗面在 Test-Time Scaling(测试时扩展)领域的最新进展,通过同时扩展思考 Token 和工具调用轮次,模型实现了更强的 Agent 和推理性能。

智能体、推理能力全面提升

体现在测试上,在人类最后的考试(HLE)中,允许使用工具——搜索、Python、网络浏览工具的同等情况下,Kimi K2 Thinking 取得了 44.9% 的 SOTA 成绩。

官方还放出了一个通过 23 次推理和工具调用,K2 Thinking 成功解决博士级别数学问题的示例。

第三方测试也印证了其智能体能力的提升:

Artificial Analysis 在 ² -Bench Telecom 智能体工具使用基准中测试了 Kimi K2 Thinking。

结果显示,Kimi K2 Thinking 达到 SOTA,在智能体场景下,比此前广受好评的 K2 Instruct 更进一大步(73% → 93%)。

自主搜索与浏览能力全面提升

在复杂搜索和浏览场景中,Kimi K2 Thinking 也表现出色。

在人类平均智能取得 29.2% 分数的 BrowseComp 上,Kimi K2 Thinking 展现出 " 刨根问底 " 的钻研能力,以 60.2% 的成绩成为新的 SOTA 模型。

在长程规划和自主搜索能力的驱动下,Kimi K2 Thinking 可借助多达上百轮的 " 思考→搜索→浏览网页→思考→编程 " 动态循环,持续地提出并完善假设、验证证据、进行推理,并构建出逻辑一致的答案。

这种边主动搜索边持续思考的能力,使 Kimi K2 Thinking 能够将模糊且开放式的问题分解为清晰、可执行的子任务。

Agentic 编程能力增强

编程方面,在 SWE-Multilingual、SWE-bench 验证集,和 LiveCodeBench 等测试基准中,Kimi K2 Thinking 也能和最强闭源模型 GPT-5、Claude Sonnet 4.5 等打得有来有回。

官方提到,Kimi K2 Thinking 在处理 HTML、React 以及组件丰富的前端任务时性能有明显提升,能将创意转变为功能齐全、响应式的产品。

在 Agentic Coding 场景中,Kimi K2 Thinking 能在调用各种工具的同时进行思考,灵活地融入 software agents 中,处理更复杂、多步骤的开发工作流。

比如,复刻一个真实可用的 Word 文字编辑器。

又比如创造一个华丽风格的 voxel art 作品:

通用基础能力升级

智能体和推理能力的主线之外,Kimi K2 Thinking 的通用基础能力也获得了升级。

创意写作:Kimi K2 Thinking 显著提升了写作能力,能将粗略的灵感转化为清晰、动人且意图明确的叙述,使其兼具韵律感和深度。它能驾驭微妙的文风差异和模糊的结构,并在长篇大论中保持风格的连贯性。在创意写作方面,它笔下的意象更生动,情感共鸣更强烈,将精准的表达与丰富的表现力融为一体。

学术与研究:在学术研究和专业领域,Kimi K2 Thinking 在分析深度、信息准确性和逻辑结构方面均有显著提升。它能剖析复杂的指令,并以清晰严谨的方式拓展思路。这使其尤其擅长处理学术论文、技术摘要,以及那些对信息完整性和推理质量要求极高的长篇报告。

个人与情感:在回应个人或情感类问题时,Kimi K2 Thinking 的回答更富同理心,立场也更中正平和。不仅思考更深入且明确,能提供细致入微的观点和切实可行的后续建议,还更有人情味。

原生 INT4 量化

值得注意的一点是,K2 Kimi Thinking 用的是 INT4 而非 FP8 精度。

官方的解释是,思考模型会产生极长的解码长度,常规的量化手段往往会导致模型性能大幅下降。为了克服这一挑战,他们在后训练阶段采用了量化感知训练(QAT),并对 MoE 组件应用了 INT4 纯权重(weight-only)量化。

这使得 Kimi K2 Thinking 能够在复杂推理和 Agentic 任务中支持原生的 INT4 推理,并将生成速度提升了约 2 倍。

以及,INT4 对推理硬件的兼容性更强,对国产加速计算芯片更友好

p.s. Blackwell 之前的英伟达 GPU 不支持 FP4。

上手实测

更多测试实例,可以在官方技术博客中查看,我们也第一时间简单测试了一波(仅开启长思考模式,未联网)。

经典题:

一根 7 米长的甘蔗如何通过 1 × 2 米的门

思考了将近 5 分钟,Kimi 给出的回答是:

思考的时间是有点长,但 Kimi K2 Thinking 成功绕过了这道题目中的陷阱,想到了门的长宽其实并不会限制甘蔗的通过。

编程方面,我们测试的题目是:

编写一个 Python 程序,让一个小球在旋转的六边形内弹跳,小球运动遵循物理规律

这一次,Kimi K2 Thinking 很快就开始上手编写代码了。

这个表现你觉得如何?

如果你也已经上手实测,欢迎在评论区与我们分享更多测试结果 ~

项目地址:

https://huggingface.co/moonshotai/Kimi-K2-Thinking

技术博客链接:

https://moonshotai.github.io/Kimi-K2/thinking.html

参考链接:

[ 1 ] https://x.com/Kimi_Moonshot/status/1986449512538513505

[ 2 ] https://x.com/ArtificialAnlys/status/1986541785511043536

[ 3 ] https://mp.weixin.qq.com/s/oQp1kFpoYFhYQ8GzbwZLyA

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

  年度科技风向标「2025 人工智能年度榜单」申报即将于 11 月 17 日截止点击了解详情

❤️‍   企业、产品、人物 3 大维度,共设立了 5 类奖项,最后时刻一起冲刺 

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 考试 python mit 数学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论