量子位 昨天
DeepSeek终于丢了开源第一王座,但继任者依然来自中国
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

几千人盲投,Kimi K2 超越 DeepSeek 拿下全球开源第一!

歪果网友们直接炸了,评论区秒变夸夸打卡现场:

今天,竞技场终于更新了 Kimi K2 的排名情况——

开源第一,总榜第五,而且紧追马斯克 Grok 4 这样的顶尖闭源模型

并且各类单项能力也不差,能和一水儿闭源模型打得有来有回:

连续多轮对话并列第一,o3 和 Grok 4 均为第四;

编程能力第二,和 GPT 4.5、Grok 4 持平;

应对复杂提示词能力第二,和 o3、4o 位于同一梯队;

……

甚至眼尖的朋友也发现了,唯二闯入总榜 TOP 10 的开源模型都来自中国。(DeepSeek R1 总榜第 8)

当然了,即使抛开榜单不谈,Kimi 这款新模型过去一周也确实火热——

K2 过去一周真热啊

公开可查战绩包括但不限于下面这些:

连 AI 搜索引擎明星创企 Perplexity CEO 也亲自为它站台,并透露:

Kimi K2 在内部评估中表现出色,Perplexity 计划接下来基于 K2 模型进行后训练。

甚至由于访问的用户太多了,逼得 Kimi 官方也出来发公告:

访问量大 + 模型体积大,导致 API 过慢。

……

不过就在一片向好之时,人们关于 "Kimi K2 采用了 DeepSeek V3 架构 " 的质疑声再度升温。

对此,我们也找到了 Kimi 团队成员关于 K2 架构的相关回应。

总结下来就是,确实继承了 DeepSeek V3 的架构,不过后续还有一系列参数调整。

p.s. 以下分享均来自知乎 @刘少伟,内容经概括总结如下 ~

一开始,他们尝试了各种架构方案,结果发现 V3 架构是最能打的(其他顶多旗鼓相当)。

所以问题就变成了,要不要为了不同而不同?

经过深思熟虑,团队给出了否定答案。理由有两点:

一是 V3 架构珠玉在前且已经经过大规模验证,没必要强行 " 标新立异 ";二是自己和 DeepSeek 一样,训练和推理资源非常有限,而经过评估 V3 架构符合相关成本预算。

所以他们选择了完全继承 V3 架构,并引入适合自己的模型结构参数。

具体而言,K2 的结构参数改动有四点:

增加专家数量:团队验证了在激活参数量不变的情况下,MoE 总参数增加仍有益于 loss 下降。

注意力头 head 数减半:减少 head 数节省的成本,刚好抵消 MoE 参数变大带来的开销,且效果影响很小。

只保留第一层 Dense:只保留第一层为 dense,其余都用 MoE,结果对推理几乎无影响。

专家无分组:通过自由路由 + 动态重排(EPLB)可以应对负载不均衡,同时让专家组合更灵活,模型能力更强。

最终得到的推理方案就是,在相同专家数量下:

虽然总参数增大到 1.5 倍,但除去通信部分,理论的 prefill 和 decode 耗时都更小。即使考虑与通信 overlap 等复杂因素,这个方案也不会比 V3 有显著的成本增加。

就是说,这是一种更 " 精打细算 " 的结构调优。

而且这种放弃自己的模型架构路线,彻底走 DeepSeek 路线的做法,也被国内网友评价为 " 相当大胆 "。

来源:知乎网友 @蛙哥

OK,以上关于 Kimi 和 DeepSeek 架构之争的问题落定后,我们再把目光拉回到这次最新排名。

开源追平 or 超越闭源 ing

一个很明显的趋势是:「开源 = 性能弱」的刻板印象正在被打破,开源模型已经越来越厉害了。

不仅榜单上的整体排名在上升,而且分数差距也越来越小。

仔细看,模型 TOP 10 总分均为 1400+,开源和闭源几乎可以看成位于同一起跑线。

而且这次拿下开源第一的 Kimi K2,总分已经非常接近 Grok 4、GPT 4.5 等顶尖闭源模型了。

换句话说,以前我们可能还要在模型能力和成本之间作取舍,但随着开源力量的崛起,多思考一秒钟都是对开源的不尊重(doge)。

与此同时,越来越多的行业人士也表达了对开源崛起的判断。

艾伦人工智能研究所研究科学家 Tim Dettmers 表示:

开源击败闭源将变得越来越普遍。

Perplexity CEO 也多次在公开场合表示:

开源模型将在塑造 AI 能力的全球扩散路径中扮演重要角色。它们对于因地制宜地定制和本地化 AI 体验至关重要。

而在已经逐渐崛起的开源模型领域,TOP 10 中唯二开源、且都是国产模型的含金量还在上升。

参考链接:

[ 1 ] https://x.com/lmarena_ai/status/1945866381880373490

[ 2 ] https://www.zhihu.com/question/1927140506573435010/answer/1927892108636849910

[ 3 ] https://zhuanlan.zhihu.com/p/1928863438324623337

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题   扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

进群后,你将直接获得:

  最新最专业的 AI 产品信息及分析  

   不定期发放的热门产品内测码

   内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

评论
亮仁
22小时前
等所有人都以kimi作为比较对象而不是Ds 的时候,就真的赢了
羽装头盔
昨天
这个怎么说呢,就像厨师炒菜,Kimi是用了DS的部分配方,但是他炒出来的更香啊
慈祥的咱爸咱妈
昨天
我只能说 国内幸亏有开源。。。要不真没得抄[没眼看]
最后一袋了
昨天
算了吧,KM是最早大量词条过滤的,拿去测试的是未过滤版本。国内审查版根本无法用
大家都在看