172 天过去,Kimi 在深夜低调给出了 DeepSeek 冲击波后的回应。
全新 Kimi K2 基础大模型,MoE 架构,总参数 1T,激活参数 32B,能力领先性尤其展现在代码、Agent、数学推理任务上。
Kimi 援引多个基准评测数据,创造了开源全新 SOTA。
没错,Kimi K2,这次发布即开源。
并且 Web 端、App 和 API 服务都同步上线可以使用。
作为 DeepSeek R1 发布后最大的 " 被冲击者 ",Kimi 这半年几乎遭遇到了全方位质疑:技术领先性还有吗?营销投流意义几何?以及之前非技术花边缠身—— Kimi 还有技术信仰吗?
172 天后,Kimi 在深夜用 K2 大模型给出了低调但明确的回应:
游戏尚未结束,Kimi 不下牌桌,Kimi 不打算认输。
杨植麟算是被广东大哥梁文锋叫醒了。
Kimi K2:1T 参数 MoE 基础模型
先来看 Kimi K2 的具体情况。
作为 Kimi 最新 MoE 基础模型,Kimi K2 强调的是代码能力和通用 Agent 任务能力。
总参数量达到 1T …属实是让本地部署党捏了把汗,不过激活参数是 32B。
支持 128K 上下文。
而蛰伏许久,一上新又直接是一个开源的大动作,Kimi 此番就是奔着 SOTA 来的。
在 SWE Bench Verified、Tau2、AceBench 等基准性能测试中,Kimi K2 均取得开源模型中的 SOTA 成绩。
Agent 和编程能力:
工具调用能力:
数学等科学能力:
官方 Demo,也把大家现在最关心的一些模型能力,直观展示了出来。
代码能力提升
在前端开发任务中,Kimi K2 支持粒子系统、可视化和 3D 场景等表现形式。
可以生成支持昼夜循环的山川峡谷 3D 景观:
3D 粒子星系模拟的效果也很出色:
Agent 工具调用能力提升
Kimi K2 具备稳定的复杂指令解析能力,可将需求自动拆解为一系列格式规范、可以直接执行的 ToolCall 结构。
比如,一站式帮你追星(doge):
全年追星计划,演唱会机酒和旅行规划它都能帮忙做,还能生成日历,用 html 概括完整行程规划并给你发送邮件。
上线即开源
此次 Kimi K2 讨论度最高的一点,就是 Kimi 果断走了开源路线。
开源的模型版本有两个:
Kimi-K2-Base:未经过指令微调的基础预训练模型,适合科研与自定义场景;
Kimi-K2-Instruct:通用指令微调版本(非思考模型),在大多数问答与 Agent 任务中表现卓越。
遵循的是修改版 MIT 协议(Modified MIT License)。
MIT 协议可以说是最宽松的协议(约等于怎么用都行)。而 Kimi 的修改在于,如果基于 Kimi K2 打造的产品或服务月活跃用户超过 1 亿,或者月收入超过 2000 万美元,那么需要在该产品和服务的用户界面上显示 "Kimi K2"。
技术细节
此外值得关注的是,Kimi 官方此次也分享了不少技术细节。
其中关键的技术创新有三点:
MuonClip 优化器
Kimi K2 抛弃了传统的 Adam 优化器,创新性地使用了 Muon 优化器。
为了缓解大规模训练中的 attention logits 偏大问题,他们提出 MuonClip,并将其扩展到万亿参数规模,提升了训练稳定性和 token 使用效率。
Kimi K2 完成了 15.5T token 的平稳训练,全程无 loss spike。
大规模 Agentic Tool Use 数据合成
Kimi K2 构建了可大规模生成多轮工具使用场景的合成 pipeline,覆盖数百领域、数千工具。高质量样本由 LLM 评估筛选后用于训练。
通用强化学习
Kimi K2 不仅在可验证任务上(代码、数学)强化学习,还通过引入自我评价机制(self-judging),解决了不可验证任务的奖励稀缺问题。通过可验证任务持续优化 critic,提升泛化任务表现。
实测
模型一官宣,Kimi 官网和 App 已经实装。
效果究竟有没有官方说的那么好,我们上手实测验证了一波。
先热热身,让 Kimi 给 Kimi K2 做个宣传网页。
提示词很简单,同时打开联网搜索:
Kimi K2 发布并开源,做一个宣传网页。
再加上一点物理模拟试试:
模拟高尔顿板,UI 设计得好看一点。
这个 UI 确实不错。另外在提示词没有给出具体要求的情况下,Kimi K2 贴心地自动设计了行数和小球数量的调整滑杆。
不过小球下落的动画还有优化空间。
可以看到,即使提示词很简单,Kimi K2 也能理解到位,写出效果相当不错的代码。
那么如果让 Kimi K2 担当私人助理,帮忙做做计划,效果又会如何?
提示词:
我想去看林俊杰的演唱会,在东亚地区的都可以,帮我安排一份观演计划,包括机酒和行程规划。
乍一看还挺清晰的,但桥豆麻袋……
选的都是过期场次,并没有什么参考价值。
不过从官方的说法来看,这可能和工具调用功能还没正式上线有关。
无论如何,K2 的性能成绩和体验,还是展现了 Kimi 一鸣惊人时的水准。
曾经的 Kimi,正在回归。
DeepSeek 冲击波 172 天之后,Kimi 的回应
种种迹象表明,Kimi K2 带着诚意,也带着王者回归的复仇情绪。
172 天之前,2025 年春节之前,Kimi 曾是国产基础大模型中最受关注的一个,团队青春风暴,产品体验优雅。
据量子位智库统计数据,在 2024 年全年数据,AI 智能助手 Web 端市场格局已经相对稳定,特别是头部,形成了Kimi 智能助手、豆包 AI 和文心一言的 TOP 3 格局,占据70%市场份额。
而 Kimi 更是以创业独角兽姿态,青春风暴,锐不可当。
在 APP 端,这种态势就更明确,豆包和 Kimi 智能助手几乎断崖式领先其他玩家,各维度数据占比市场份额 80%。几乎就是双寡头。
但这种数据上的优势,在 2025 年 1 月 20 日迎来暴击。
因为正是这一天,DeepSeek R1 横空出世,迅速引爆国内外,并在春节假期中,形成了全民话题。
在 AI 领域一直伺机而动的巨头腾讯,也行动迅速,借助 DeepSeek 的开源大旗,猛虎下山。
稳固的格局,一夜巨变。
所以半年之后,AI 智能助手什么光景?
量子位智库最新的 2025 上半年数据显示,Web 端和 App 端,头部格局都变成了DDKT,占据 90% 市场份额。
所谓 DDTK,就是字节豆包、DeepSeek、Kimi、腾讯元宝。
Kimi 依然在牌桌,然而危机的警报已经内外都能感知,增长之外的留存活跃,更是风声鹤唳。
因为 Kimi 的数据增长地位,跟其之前拿着巨额融资后烧钱投流的策略密不可分,然而如果 DeepSeek 和腾讯元宝,可以靠着先进模型就能快速突破,那这壁垒又何在?这烧钱投流的正当性又何在?
更何况在 DDTK 中,Kimi 是唯一的没有现金奶牛支撑的创业公司。
数据层面的体现,恐怕只是 Kimi、月之暗面这半年来宏观压力下的质疑之一……
更根本性的质疑则直接关乎生死存亡——
DeepSeek 之后,还需要自研基础大模型重复造轮子吗?
DeepSeek 的冲击,不仅是先进技术模型的冲击,更是开源对闭源的冲击。
如果市面上已经有如此全方位开源的领先模型,为什么其他公司特别是创业公司,还有合理的融资理由去推进自研基础大模型的故事?
至少在 DeepSeek 之后,曾经包含 Kimi 在内的 AI 大模型 " 六小龙 " 创业格局,已经一夜分崩,有至少 2 家放弃了大模型自研。
于是这 172 天之中,Kimi 上上下下也好,CEO 杨植麟也好,一定被不断问及这个质疑:
Kimi 如何回应?Kimi 往何处去?
现在,杨植麟从舆论里消失 172 天之后,Kimi 用 K2 开源基础大模型给出了最明确的回应——
Kimi 不认输,Kimi 不会放弃自研大模型。
Kimi 的路径也已经明牌——
打造更强的开源大模型,全维度 SOTA,重新证明技术的领先性。
某种程度来说,梁文锋不光叫醒了老乡小弟杨植麟,更帮他重新找回了竞逐 AGI 的初心。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~
进群后,你将直接获得:
最新最专业的 AI 产品信息及分析
不定期发放的热门产品内测码
内部专属内容与专业讨论
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦