月之暗面今年以来的技术迭代还在继续。
11 月 6 日晚间,月之暗面旗下 Kimi 大模型发布了 Kimi K2 Thinking,并称其为 "Kimi 迄今能力最强的开源思考模型 "。
Kimi 官方表示,Kimi K2 Thinking 是基于 " 模型即 Agent(智能体)" 理念训练的新一代 Thinking Agent,它原生掌握 " 边思考,边使用工具 " 的能力。
从实测成绩来看,Kimi K2 Thinking 在 " 人类最后的考试 "(Humanity's Last Exam)、自主网络浏览能力(BrowseComp)、复杂信息收集推理(SEAL-0)等多项基准测试中表现达到 SOTA(当前技术水平的最前沿)水平。
自 7 月进入 "K2" 版本之后,Kimi 的升级正在提速。9 月 5 日,Kimi 发布 Kimi K2 模型的最新版本 "0905",进一步提升其在真实编程任务中的表现。9 月 25 日,月之暗面 Kimi 发布全新 Agent 模式 "OK Computer" 并开启灰度测试。
这也是整个 AI 市场的一个缩影。事实上,AI 市场正进入快速迭代阶段。据 QuestMobile 发布的 2025 年三季度 AI 应用行业报告,以头部互联网集团为例,今年 1 月— 9 月共完成 182 次模型发布 / 更新 / 迭代,平均每 5.7 天就迎来一次模型升级。
模型迭代节奏持续加快,技术竞争正转向应用能力与推理深度的实战较量。
在 " 人类最后的考试 " 中超越 GPT-5(High)
据 Kimi 官方,Kimi K2 Thinking 是 "Kimi 迄今能力最强的开源思考模型 ",这一定位源于其在技术架构、任务执行与评测表现上的系统性突破。
作为基于 " 模型即 Agent" 理念训练的新一代 Thinking Agent,Kimi K2 Thinking 实现了 " 边思考,边使用工具 " 的原生能力融合。该模型可在无人干预的情况下,自主完成多达 300 轮的工具调用与多轮思考,可提升处理复杂问题的连续性与稳定性。
在多项关键能力维度上,Kimi K2 Thinking 均有明显进步,其 Agentic(智能代理)搜索、Agentic 编程、写作与综合推理性能得到进一步强化。
在推理能力方面,该模型在涵盖 100 多个专业领域的 " 人类最后的考试 "(Humanity's Last Exam)中取得了卓越成绩。该测试允许使用搜索、Python 及网络浏览等工具,Kimi K2 Thinking 以 44.9% 的得分达到 SOTA 水平。作为对比,Kimi 公布的同场测试中 GPT-5(High)的成绩为 41.7%。
面对信息过载的复杂搜索场景,Kimi K2 Thinking 同样表现出色。BrowseComp 测试旨在评估 AI 在信息密集环境中的坚持性与创造力。在该项测试中,人类平均得分仅为 29.2%,而 Kimi K2 Thinking 以 60.2% 的成绩刷新了 SOTA 纪录。
此外,该模型在编程相关任务中亦有稳步提升。在多语言软件工程基准 SWE-Multilingual、SWE-bench 验证集以及 Terminal 终端使用等测试中,其表现有了进一步提升。
除了专项能力的突破,Kimi 表示 Kimi K2 Thinking 模型在通用基础能力上也实现同步升级。无论是在创意写作、学术研究,还是在回应个人与情感类问题时,模型都展现出更成熟的理解与表达能力。
为进行对比验证,《每日经济新闻》记者使用与测试 Kimi K2 时相同的提示词,要求 Kimi K2 Thinking 模型以 2025 年北京高考作文题 " 数字闪耀时 " 为例,模拟高中生身份完成一篇一类记叙文。从结果看,文章结构完整、扣题准确,但在切题方式上,该模型与 K2 一样,仍存在表达略显生硬的情况。

使用了长思考模式的 Kimi 撰写的作文图片来源:Kimi 网页版截图
目前,Kimi K2 Thinking 模型的 API(应用程序编程接口)已在 Kimi 开放平台正式上架,支持 256K 上下文长度,定价与 Kimi K2-0905 相同:每百万 Token(大模型处理文本时的最小单位)输入收费 4 元,输出 16 元,若命中缓存,输入费用仅为 1 元。同时,平台也推出了生成速度高达 100 Token/s 的 Turbo API,其每百万 Token 输入为 8 元,输出 58 元,命中缓存的输入同样为 1 元。
Kimi 能否破局 " 红海 " 竞争
然而,技术优势能否成功转化为市场认可,是摆在 Kimi K2 面前的首要挑战。
QuestMobile 数据显示,今年三季度,接近 60% 的原生 App 陷入负增长,对于新入局者或中小应用而言,独立打造一款成功的原生 App 的窗口正在收窄。2025 年,国内大模型竞争已从初期的 " 百花齐放 " 步入 " 巨头主导 " 的新阶段。
Kimi 自身的增长也面临压力。
根据量子位智库 10 月数据,在 AI 助手 APP 新增下载榜上,Kimi 与 DeepSeek 分别以超 420 万和 360 万的下载量位列第三、四位,但相较 9 月,两者的下载量均下滑超过 13%。与此同时,字节跳动的 " 豆包 " 以近 2800 万新增下载稳居第一,腾讯 " 元宝 " 则以超 1300 万下载、环比 14% 的涨幅位列第二。大厂凭借其生态优势,持续挤压着独立应用的生存空间。
并且,更多跨界玩家正依托自身业务场景加速入局。11 月 3 日,美团 LongCat(龙猫)团队宣布推出全新开源大模型 LongCat-Flash-Omni,这也是美团在两个月内第四次发布新模型。
另一个行业信号是 AI 交互成本的下降。
QuestMobile 在报告中表示,人均单次 Token 消耗的下降也标志着 AI 行业进入了一个以 " 效率提升、成本控制、价值驱动 " 为特征的新阶段。这是行业走向成熟和商业化的关键信号。
在此背景下,今年以来的 Kimi 正尝试通过垂类合作探索商业化路径。今年 " 双 11" 期间,《每日经济新闻》记者测试发现 Kimi 更新了 " 导购 " 功能,可根据用户需求推荐商品并附带淘宝或京东链接,不过商品多来自代理店铺,尚未与官方旗舰店打通。相较于字节 " 豆包 + 抖音 "、阿里 " 通义 + 电商 " 的生态闭环,Kimi 暂未形成同等强度的业务绑定。
数据表明,具备清晰场景的垂直类 AI 应用仍具有增长潜力。据 QuestMobile,字节跳动旗下即梦 AI、豆包爱学及蚂蚁集团旗下 AQ 健康管家等垂类应用三季度月活跃用户规模复合增长率分别达 12.1%、15.7% 和 83.4%。
对 Kimi 而言,差异化的核心在于将模型能力转化为用户可感知的价值。其能否在 Agent 搜索、编程助手、深度研究等场景建立起不可替代性,将决定技术升级的市场成效。
Kimi K2 Thinking 展现出的技术纵深,为月之暗面在 " 思考型 Agent" 这一差异化路径上赢得了重要筹码。然而,在白热化的大模型竞争中,技术领先性只是入场券,能否将 " 长思考 "" 强推理 " 的模型能力,转化为用户高频依赖的应用场景,并构建起可持续的商业模式,才是真正的破局关键。
每日经济新闻


登录后才可以发布评论哦
打开小程序可以发布评论哦