我们差点忘了的Kimi，最近要“杀”回来？

只能说，AI 圈你追我赶的激烈程度，远比想象中猛烈。

怎么个事儿呢，这得说到前几天。上周五深夜，Kimi 放出了万亿参数的 MoE 模型 Kimi K2，然后这款国产 AI 就因为 big and beautiful 在海外技术圈刷屏了，很火的那种。

有一说一，差评君上次测评 Kimi 的新产品，还是在今年 1 月。沉寂了半年，没想到 Kimi 这次直接选择了开源的旗舰模型，好好好，这格局简直了。

而且，仔细研究了一顿之后我发现，这个 K2，让老外着迷不是没有原因的。

简单来说，这次的 Kimi K2 想要做的，不只是以前那种我问你答的聊天机器人了，而是有了初步的任务规划和使用工具的能力，只要告诉它有哪些工具可以使用，它就会根据任务的需求，自主地调用不同的工具来完成任务。

但重点是，对于一个开源大模型来说，Kimi 团队把 K2 的部分能力做到了接近闭源顶流的水平，这就很了不起了。

所以海外很多圈内大佬，这次也都坐不住了。

比如拿了黄仁勋投资，日本 AI 新秀 Sakana AI Labs 的创始人，就完全被 Kimi K2 的损失曲线征服了，说这是每个圈内工程师梦中的画面。

Hyperbolic labs 的联合创始人兼首席技术官，看完更是直接爆粗口了，上来就一句 Holy 谢，说这简直太疯狂了，这么逆天的东西居然连论文都不发，只放到了博客上。

还有不少 AI 博主，像是 Prime Intellect 的研究员，也直接高呼，一个新的 DeepSeek Moment 到了。

甚至不少人都开始挖，这 Kimi 的创始人是何许人也。

除了这些，不少大咖也纷纷发推安利，像 AI 美术工具 MagicPath 的 CEO Pietro Schirano，用完直接爱上了。

他说这是自 Claude 3.5 Sonnet 以来，他用过的最舒服的模型。

还有一家市值十亿美元，做 AI 应用的公司 Greywing，创办人 Hrishi Olickel 把它跟同样前几天发布的 Grok4 对比了一下，发现 Kimi K2 直接给 Grok4 干碎了。

大家用的都是同一套提示词，结果 Grok4 愣是没一次能赢，直接抬走的水平。

更牛逼的是，我还看到 Hugging face 联合创始人 Thomas Wolf，也对 Kimi K2 大加赞赏，说这简直难以置信，还向外国网友们安利了一波月之暗面团队。

就连估值 150 亿美元的知名 AI 搜索公司 Perplexity ，他家 CEO，前 OpenAI 研究科学家 Aravind Srinivas，都在推上公开圈了月之暗面，希望他们 Perplexity 以后能基于 Kimi K2 进行训练。

要知道，之前 DeepSeek R1 也被 Perplexity 用来训练过，可见这种认可的含金量。

甚至有不少业内人士猜测说，OpenAI 甚至推迟了他们家开源模型的发布，不知道是不是为了暂避锋芒。。。

反正从基准测试成绩上看，没准也有可能。

Kimi K2 在代码、工具调用、数学、通用知识等性能测试中，表现都相当不错，一些项目甚至领先于顶尖的闭源模型。

SWE-bench 榜单的作者 Ofir Press，看到这成绩以后还专门发文点赞了 Kimi 团队。

说实话，评分这东西也就是个数字，是不是真的厉害那还得亲自上手了才知道。

结果等到哥们上手一测，发现这 Kimi 的实力是真的有点超出预期，特别是在写代码上，比如在 html 里实现 3d 场景生成。

不多 bb，直接看结果，咱拉来了性能最强，但也巨贵的 Claude 和 Gemini 2.5pro，让开源的，价格实惠的 Kimi K2，跟这俩同台竞技。

提示词给的也都是一样的，大概就是做一个 3d 版的地球出来，还要有夜间灯光那种。

首先看 Kimi，我感觉它这个光线做的就非常舒服，没有特别亮的地方，暗部也不全黑，能看见城市灯光。而且这个地球上的云层，不是贴上去的，这玩意可以实时移动位置，真的是在飘的！

作为对比，先被拉来的是 Claude Sonnet。但效果嘛，请看 VCR。

可能是因为调库用没调好的原因，结果搞成了卡通风。。。

由于 Sonnet 略微跑题，为了讲武德，咱就直接让他家大哥来，Claude Opus4。

有一说一，这 Opus 确实给 Claude 长脸，试完以后结果属实是强了不少。

但相比而言，我感觉 Opus 的光线还是略差于 Kimi，比如太阳直射点就一个大团，而且很多地方过曝了，云层也没有显示出来。

再看看 Gemini 的水平，乍一看好像很不错，但放大就会发现，这贴图质量属实有点差。不过也比 Sonnet 强，确实是做出来了，总体这一轮 Kimi K2 还是有优势的。

不过当我再给各自的提示词加上，生成太阳和月亮模型时，情况就有了变化。

Kimi 和 Claude 的画面质量依旧在线，但是 Claude 整了个地心说出来，哥白尼看了都流泪。

而 Gemini 虽然丢了太阳，但它注意到了一个 Kimi 和 Claude 都忽略的细节，三星连线的时候会有日食。

虽然 Gemini 想的多了点，但整体来看，这三家还是各有优势。

起码作为开源模型，Kimi K2 的水平还是很高的，在模型生成这块我觉得已经可以比肩 Claude Opus4 这些闭源大模型了。

除了模型生成，即使在一般的网页搭建上，Kimi K2 的效果也挺惊艳。

我们测试的提示词是，" 整理一份详细的酷玩乐队 2025 年演唱会出行计划 "。同时喂给 Kimi 和 Claude ，然后他俩都会自动去网页搜索演唱会的信息，地址，酒店等。

最后 Kimi 的答卷是这样：

该说不说，在色彩搭配上，这网页确实很有酷玩的风格。

再看 Claude 这边，整理的资料比 Kimi 稍微详细一些，但整体风格跟 Kimi 还是很不一样，色彩用的更大胆一些。

不过就这块测试来说，我觉得 Kimi 确实是一个不容小觑的开源模型。

但实际上，这还不是 Kimi 代码能力的上限。

因为上面的演示，都是我在网页版 Kimi 里测试出来的效果，而作为一个主打 Agentic 的模型，如果你想榨干它的全部能力，就必须在像 Claude Code 这样的 AI 编程平台上，调用 api 去实现。

举个例子，还是同样的提示词，我们让 Kimi 和 Claude 都各自生成一个可以交互的我的世界游戏。

先看 Claude 的结果，工具栏，左键消除右键搭建都有，已经像模像样了。

在网页版的 Kimi 里，我的世界的效果，可以说跟 Claude 彼此彼此，甚至还少了工具栏。

然而，当你在部署 api 以后，Kimi 就会开始全自动的谋划方案，调用，技术博客里给出的最后结果，我只能说是非常的 Amazing 啊：

虽然用本地的 Kimi api 跟 Claude 网页版比较，稍微有点不讲武德，但你就看这效果好不好吧。要不说是 AI 做的，我还真不好一眼分辨出来，而且交互也相当底流畅，很自然。

除了上面的这些案例，官方还发布了他们自己跑出来的一些很不错的案例，比如这个 3D 粒子的旋转星系，在光影的控制，交互上做的也很厉害。

而我们在本地，用 Claude Code 搭载 Kimi 的 api 测试下来，也完全可以实现类似的效果。

这么看下来，外网的一堆博主对 Kimi 的能力表示钦佩，其实咱也能理解了。

跟顶流水平差不太多的模型，但价格只有 Claude Sonnet 的 1/5 ，Claude Opus 的 1/25，像哥们今天测了一天，跑了一堆案例，一看账户总消费不到五块钱。。。

属实是便宜大碗，性能上也有对标 Claude 的潜力，这性价比你上哪找去。

所以说有些时候，本事这玩意是很难藏着掖着的，你要真靠谱，想躲着不出名都难。比如新版 Kimi app 更新详情上，就很低调的只写了一句，新闻就是历史的初稿。

这句话来自 1999 年的一本散文集，用在这么大的版本更新上，确实又低调又文艺，而且充满自信。

有意思的是，这确实也符合月之暗面这家公司的调性。

之前差评君和同事去北京拜访过月之暗面，本以为这是一家技术型的 AI 公司，没想到里面的氛围反而跟咱差评编辑部有点像，甚至空气里有股文艺范儿。

公司门口就摆着一架能自动演奏的钢琴，上面是摇滚乐队 Pink Floyd 的专辑《The Dark Side of the Moon》（月之暗面）。

他们的会议室也不是数字编号，而是用乐队的名字命名，每个会议室里还挂着对应乐队的一张黑胶唱片，这真有点像是一群艺术家待的地儿

而就在 K2 发布的前夜，月之暗面的员工，用 Kimi K2 写了一个 MCP 工具来连接 Mac 电脑上的库乐队应用，让办公室那台钢琴，弹起了帕赫贝尔的《卡农》。

古典与科幻，在这个夜晚交融，谁又说创造智能，不是一种艺术呢。

至于这场 AI 的神仙打架大戏，和它们那波澜壮阔的技术蓝海，就留给我们这些时代的见证者，慢慢欣赏了。

撰文：纳西

宙世代

一起剪

相关标签