智东西 19小时前
Kimi首个万亿参数模型开源!免费可用,超强Agent推理,附实测体验
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 陈骏达

编辑 | 心缘

智东西 7 月 12 日报道,昨夜,国内大模型独角兽月之暗面发布并开源了其最新一代 MoE 架构基础模型 Kimi K2,总参数量达到 1 万亿(1T),激活参数为 32B。Kimi K2 已在 Kimi Web 端和 App 端中可用。

Kimi K2 是月之暗面首款开源发布的旗舰模型,在 SWE Bench Verified(编程)、Tau2(智能体)、AceBench(工具调用)这三项基准测试中,这一模型取得开源模型中的 SOTA 成绩。

在自主编程(Agentic Coding)、工具调用(Tool Use)和数学推理(Math & Reasoning)这三个能力维度上,Kimi K2 的表现超过了 DeepSeek-V3-0324、Qwen-235B-A22B 等模型,但在部分基准测试中略逊于 Claude 4 Opus、OpenAI GPT-4.1 等模型。

Kimi K2 在预训练阶段使用了 "MuonClip" 优化器实现万亿参数模型的训练。这一优化器能提高 Token 利用效率,缓解高质量人类数据的短缺问题。月之暗面还应用了大规模 Agentic Tool Use 数据合成和引入自我评价机制的通用强化学习等技术。

Kimi K2 API 服务也同步上线。Kimi K2 API 支持最长 128K 上下文,计费方案为每百万输入 tokens/4 元,每百万输出 tokens/16 元,输入输出价格均为 DeepSeek V3 的 2 倍。

Kimi K2 系列中的两个模型版本现已开源,包括未经过指令微调的基础预训练模型 Kimi-K2-Base 和通用指令微调版本 Kimi-K2-Instruct(非思考模型)。前者适合科研与自定义场景,后者则可用于大多数问答与 Agent 任务。

Kimi K2 现已上线无问芯穹 Infini-AI 异构云平台(

cloud.infini-ai.com/genstudio/),用户能以与官方 API 同样的价格调用 Kimi K2。

开源链接:

https://huggingface.co/moonshotai/Kimi-K2-Instruct

体验链接:

https://www.kimi.com/

一、编程能力迎提升,实测效果差强人意

根据月之暗面博客文章,在前端开发任务中,Kimi K2 能生成有设计感与视觉表现力的代码,支持粒子系统、可视化和 3D 场景等表现形式。官方 Demo 中,Kimi K2 开发了一个支持昼夜循环的山川峡谷 3D 景观:

还生成了粒子特效银河:

为验证上述能力,智东西向 Kimi K2 发送了如下提示词:

最终,Kimi K2 交付的网页渲染效果并未如官方 Demo 中那般逼真,交互性和功能丰富度也略逊一筹。

在难度较低的个人网站开发任务上,Kimi K2 展现出一定规划能力。在未收到明确指示的情况下,Kimi K2 主动梳理了网站的目录结构,打造出的网站可扩展性更好。

就智东西进行的个人网站开发测试而言,Kimi K2 相较 Kimi K1.5 的 UI 审美水平进步有限。

上方为 Kimi K2 生成结果,下方为 Kimi K1.5 生成结果

同样的任务交由 DeepSeek-V3-0324 进行处理,最终生成的结果如下:

二、Agent 工具调用能力增强,扩展风格化写作能力

月之暗面称,Kimi K2 现具备复杂指令解析能力,可将需求自动拆解为一系列格式规范、可直接执行的 ToolCall 结构。

开发者可将 Kimi K2 接入 owl、Cline、RooCode 等 Agent/Coding 框架,完成复杂任务或自动化编码。

Agent 能力已可通过 API 使用,更多工具能力即将在 Kimi 上线。在月之暗面内部测试环境中的实际演示里,Kimi K2 展现出一定体验 Agentic 能力。

比如,将 13 万行的原始数据丢给 Kimi K2,它可以帮用户分析远程办公比例对薪资的影响,分析显著差异,自动生成统计图表与回归模型解读,并用统一色调做出小提琴图(violin plot ) 、箱线图(box plot)、散点图(scatter plot)等专业图表,整理成报告。

再比如,如果用户是 Coldplay 粉丝,Kimi K2 可以帮忙制定今年的追星计划,完成演唱会所在城市的机酒与旅游规划,并且生成日历,再用 html 概括完整行程规划并发送邮件。

Kimi K2 还拥有了更强的风格化写作能力。官方提供的 Demo 中,Kimi K2 模仿了苹果广告文案风格:

此外,Kimi K2 在通用知识推理、数学、规划等任务中的表现亦有提升,比数字大小的题目已经难不住 Kimi K2 了。

结语:探索新型优化器,未来将新增思考与视觉理解

根据月之暗面博客文章,Kimi K2 用 MuonClip 优化器支撑万亿参数模型训练,提升 token 利用效率。结合大规模 Agentic 数据合成与通用强化学习,这一模型的通用智能能力获得提升。

为了缓解大规模训练中的 attention logits 偏大问题,月之暗面抛弃了传统的 Adam 优化器,提出 MuonClip 优化器,并将其扩展到万亿参数规模,提升了训练稳定性和 token 使用效率。Kimi K2 完成了 15.5T token 的训练,全程无 loss spike。

月之暗面还构建了可大规模生成多轮工具使用场景的合成 pipeline,其大规模 Agentic Tool Use 数据合成可覆盖数百领域、数千工具,样本由 LLM 评估筛选后用于训练。

Kimi K2 在可验证任务上(代码、数学)使用了强化学习,还通过引入自我评价机制(self-judging),解决了不可验证任务的奖励稀缺问题,实现通用强化学习,提升泛化任务表现。

目前,Kimi K2 尚不支持视觉理解和思考能力,月之暗面称这些能力将在未来陆续加入。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

kimi 开源 编程
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论