智东西 12小时前
Kimi K2新模型来了!多项测试超Claude、审美超前代,免费可用
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 程茜

编辑 | 云鹏

智东西 9 月 5 日消息,刚刚,大模型独角兽月之暗面发布 Kimi K2-0905,目前,Kimi 应用和网页版中的 K2 模型已全量升级到 Kimi K2-0905。

该模型的核心升级点为 Agentic Coding 能力增强、支持 256K 上下文、API 支持高达 60-100Token/s 的输出速度、支持 Claude Code。

为了测试 Kimi K2-0905 的性能,智东西对比了其与 Kimi K2-0711 在生成个人网站上的表现。

提示词:开发一个美观的个人网站,使用 Bootstrap 作为前端框架,直接输出相关代码。

下图左上是 Kimi K2-0711 生成的结果、左下是 Kimi K1.5 的生成结果,右侧均为 Kimi K2-0905 的结果。

可以看出,网站整体的美观度以及整体风格的一致性相比前代模型都有了一定提升,且包含的信息更加完善。

左上为 Kimi K2-0711 生成、左下 Kimi K1.5 生成、中和右为 Kimi K2-0905 生成

在考察真实软件工程任务的基准测试中,Kimi K2-0905 多项表现超过 Claude Sonnet 4,其中在用于评估大模型在软件开发任务上能力的 SWE-benchVerified、评估模型在实际软件开发工程中综合能力的 SWE-Dev 表现略逊色于 Claude Sonnet 4。

Kimi K2 首次发布是在 7 月 11 日,该模型总参数 10000 亿,激活参数 320 亿。2 天前,月之暗面就公开了 Kimi K2-0905 的一些细节,其基于基础模型构建,增强了编程能力,仍不具备思考或视觉,但保留了颇受欢迎的 Kimi K2-0711 模型的个性和风格。

目前,Kimi 开放平台已上架 kimi-k2-0905-preview 模型 API,且定价与上一代一致,计费方案为每百万输入 tokens/4 元,每百万输出 tokens/16 元。

月之暗面的官宣文章中提到,目前,AI 编程工具 Cursor、Windsurf、Trae、Cline、RooCode、Kilo Code 等已内置或接入了 Kimi K2 模型,国内外云服务厂商均部署了 Kimi K2 模型。

论文地址:

https://arxiv.org/abs/2507.20534

Hugging Face 地址:

https://huggingface.co/moonshotai/Kimi-K2-Instruct-0905

GitHub 地址:

https://github.com/moonshotai/kimi-K2

一、真实软件工程任务能力升级,多项测试超 Claude

Kimi K2-0905 具体能力提升主要有以下四点:

Agentic Coding 能力提升,在公开基准测试和真实的编程任务中均展现出更好的性能;

前端编程体验升级:提升了前端代码的美观度和实用性;

扩展上下文长度:从 128K 升级到 256K,为复杂长线任务提供更好的支持;

提供高速版 API:支持高达 60-100Token/s 的输出速度。

在侧重考察真实软件工程任务的 SWE-bench Verified 等基准测试,新版 Kimi K2 模型的表现如下:

Kimi 开放平台已上架 kimi-k2-0905-preview 模型 API:

上下文升级到 256K;Token Enforcer 保证 toolcall 100% 格式正确;完全兼容 Anthropic API、支持 WebSearch Tool,提供更好的 K2+Claude Code 使用体验;支持全自动 Context Caching,有助于节省 Input Token;定价与之前的 0711 版相同;速度达 60-100 Token/s 的高速版 API(kimi-k2-turbo-preview)已同步升级新模型。

二、拆解需求、规划步骤、实战演练都能应对

智东西还考察了 Kimi K2-0905 拆解需求、规划步骤、代码落地的能力。

提示词:写一个工具,输入一段英文文本(可能包含标点、大小写、空格),输出以下统计结果:①总单词数(忽略标点,大小写视为同一单词,如 Hello 和 hello 算一个);②出现频率最高的 3 个单词及频次(若频次相同,按字母序排序);③文本中最长的句子(以 . ! ? 为句末标志,若多个最长句,输出第一个)。

这一工具拆分了统计总单词数、频率最高 3 个单词、最长句子的需求。

第二个是在具体的图书馆场景中,智东西要求其开发一个简易的图书馆借阅管理系统。

提示词为:设计一个图书馆借阅系统的核心功能,需支持:①书籍入库(记录书籍 ID、书名、作者、库存数量);②读者借阅(记录读者 ID、借阅书籍 ID、借阅日期,需判断书籍是否有库存);③读者还书(记录还书日期,需判断是否超期,假设借阅期限为 30 天,超期按 1 元 / 天计算罚款);④查询功能(按书名查询书籍库存,按读者 ID 查询未还书籍及是否超期)。

Kimi K2-0905 生成的系统界面中,明确包含了书籍入库、读者借阅、读者还书、查询库存、查询未还书籍的模块。

值得注意的是,智能文本统计工具和图书馆借阅系统生成整体风格相似,均为蓝白配色。

结语:AI 编程或应对复杂编程挑战

当下,越来越多的开发者使用 AI 工具更高效便捷编写代码,具体用例包括自动补全代码行、修复代码错误和测试代码等。

Kimi K2 在 Agentic Coding 能力方面的提升,意味着其模型在面对复杂编程任务时,能够更高效、自主地理解需求、规划步骤并生成高质量代码,以应对更多真实编程场景。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

kimi 编程 软件开发 abs
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论