文 | 世界模型工场
上周,OpenRouter 突然冒出两个匿名模型—— Hunter Alpha 和 Healer Alpha。
没 logo、没团队、没官方宣称,却直接杀上 API 调用日榜第一,全球开发者集体沸腾。连 OpenClaw 创始人都在社交平台 X 上公开打听 " 谁在背后 "?
所有的猜测都指向了同一个名字:DeepSeek V4。
然而今天凌晨,小米却突然官宣认领:
这两个匿名模型的真实身份,是小米 MiMo-V2 系列的早期测试版。
全网瞬间集体打脸。
为什么一个手机大厂的模型,会被全世界开发者集体误认为是 DeepSeek 的下一代神作?
01 DeepSeek V4 的 " 马甲 "
小米这次的模型,的确有股熟悉的 DeepSeek 范儿。
参数规格几乎一样
小米匿名模型露出的参数规格:万亿级参数、百万 token 上下文、Agent 专精路线,和市面流传的 DeepSeek V4 传闻几乎一模一样。
能力风格太像
Hunter Alpha 在代码生成、超长上下文、多步 Agent 任务里的表现,让人瞬间联想到 DeepSeek 从 V2 到 V3 的 " 效率至上 " 血统。
核心人才加盟
小米 MiMo 大模型的掌舵人罗福莉,本身就是 DeepSeek 老将。
罗福莉是业内公认的 "AI 天才少女 ",北大计算语言学硕士,曾在阿里达摩院主导多语言模型,后转战 DeepSeek,成为 DeepSeek-V2 关键架构核心开发者。2025 年底被雷军以千万年薪挖角,11 月官宣加盟小米。
如今市场认识一家模型公司,不是看 logo,而是看参数形态、能力风格、训练路线、核心人才的流动轨迹。
罗福莉的加入,使得 DeepSeek 的基因,被小米直接复刻;匿名测试的打法,也被小米学得炉火纯青。
中国 AI 实验室的技术路线,已经趋同到分不清你我。
02 小米瞄准 Agent 底座
小米官宣认领后,市场焦点迅速转向了 " 模型到底用来干什么 "。
答案很清楚:MiMo-V2 系列不是通用聊天工具,而是专为 Agent 场景打造的底座。
丨MiMo-V2-Pro(对应 Hunter Alpha)是旗舰基座。
总参数超 1 万亿,激活参数 42B,支持 100 万 token 上下文。优化重点是长程规划与多步推理。在 OpenClaw 框架下,它能独立完成复杂任务。
社区实测显示,它在编程和工具调用上的表现,已接近 Claude Opus 4.6 水平。
丨MiMo-V2-Omni(对应 Healer Alpha) 是全模态版本。
上下文 262K,原生支持文本、图像、语音、视频输入与输出。它能看图、听录音、理解视频,然后直接执行操作。
例如:截图一张商品图片,它可打开电商平台完成比价、下单;输入一段会议录音加白板照片,它能自动生成结构化笔记并在文档工具中填充表格。
丨MiMo-V2-TTS 是配套的语音合成模型。
基于超过 1 亿小时数据训练,支持多方言、多角色、多语气切换。
三组模型结合,形成了从意图理解到执行的完整链路。
MiMo-V2 官宣后,雷军迅速发文为其站台:
Mimo-V2-Pro 在全球大模型综合智能排行榜 Artificial Analysis 上,位列全球第八。按大模型品牌来排名,排在全球第五,超过了 xAI Grok。

03 跑分还是实战?
每当有大模型发布,业内都会习惯性地思考,这到底是靠刷榜拿分,还是真能在真实场景里干活?
目前,各大权威基准测试显示,MiMo-V2 系列在逻辑推理和代码领域的成绩,位居全球第一梯队。
AIME 2025 数学基准测试中,MiMo-V2 Flash 得分 94.1% 表明,已具备了接近人类顶尖竞赛选手的能力 。
SWE-Bench 测试显示,MiMo-V2-Pro 在编程任务上不仅大幅领先于国内竞品,且在多项指标上与全球顶级模型并驾齐驱。

但质疑在于,传统的静态基准测试已无法衡量真实的智能水平。那么,MiMo-V2 在真实的人类任务中表现如何?
在以实战著称的PinchBench和 Claw-Eval 榜单上,小米这组模型展现出了强大的执行力。
PinchBench 榜单中,MiMo-V2-Pro 的任务完结率高达 85%,目前稳居全球前三,仅次于目前顶级阵营(Claude 4.6 系列、GPT-5.4)。
在 Claw-Eval 中,MiMo-V2 的指令服从度达到了 97%,表现了对复杂工具链的理解深度。
事实上,MiMo-V2 也在被开发者们用脚投票,真实调用量惊人。
OpenRouter 数据显示,MiMo-V2-Pro(Hunter)上线后多日占据日榜第一,大量来自开发者真实 Agent 工作流。

来源:OpenRouter LLM Leaderboard(2026.3.10-2026.3.16)
社区实测后也给出了积极反馈,很多人认为这套组合把可用性拉到了新高度。
但也有开发者质疑,MiMo-V2 有 " 面向特定框架 / 特定评测目标强优化 " 的嫌疑。
小米官方与 OpenClaw 生态都反复强调对 OpenClaw 工具调用与多步任务的优化,同时公开训练细节(数据配方、算力、RL 过程)缺失,很难从第一性原理排除 " 对 OpenClaw 等少数 Agent 基准过拟合 " 的可能性。
此外,也有开发者测试后表示,在安全对齐上,MiMo-V2-Pro 与 MiMo-V2-Omni 差异明显,前者强审查,后者更开放。这对企业合规、跨境产品一致性、安全体验提出了挑战。
04 小米的 AI 野心
无论外界对这组模型的表现是否有争议,小米的这次出手,已经足够让整个大模型圈重新评价它。
2026 年,中国大模型市场已经进入落地决战阶段,真正比拼的是谁能把模型真正嵌入用户日常场景。
就在这个节点,小米把 MiMo-V2 系列直接推上前台。
过去三年,小米 AI 给外界的印象始终停留在应用层:超级小爱语音助手、澎湃 OS 的智能插件、手机端侧的局部优化。它更像是一个终端厂商的辅助功能,而非独立的基础模型玩家。
然而,随着 MiMo-V2-Flash 开源冲到全球 Agent 榜第二,再到这次 MiMo 两款模型的匿名测试,小米不再是追随者,而是开始建立自己的技术谱系。
这也意味着,小米的目标不只是证明自己做得出大模型,而是要进一步证明,这套能力可以成为整个生态的新底座。
因此,小米真正的 AI 战略,是要构建 " 人 - 车 - 家 " 生态里的统一智能层。
通过把 MiMo 系列深度嵌入小米自有的垂直链路——芯片(澎湃芯片)、操作系统(澎湃 OS)、大模型、终端设备(手机、汽车、智能家居),让 AI 不再是 App 里的对话框,而是系统级的原生能力。
例如,用户在手机上说一句 " 帮我把今天会议纪要整理好 ",MiMo-V2 直接理解意图,自动调用 WPS 生成文档,同时把关键行动项推送到车机导航和家居日程。
汽车行驶中检测到用户疲劳,MiMo-V2 结合手机传感器和车内摄像头,直接调整空调、播放指定音乐,甚至提前通知智能家居煮咖啡。
这种闭环执行,依赖的是小米独有的生态优势:超过 7 亿月活跃用户、超过 10 亿 IoT 设备,以及澎湃 OS 对硬件的完整权限控制。
其他纯模型厂商只能停留在云端 API 调用,但小米却能把意图直接转化为物理世界的动作。
罗福莉曾在内部多次强调:小米不追求孤立的超级模型,而是要让 AI" 走出对话框,接管真实生活 "。
这正是小米与 DeepSeek、智谱、月之暗面等纯模型玩家的根本区别。前者靠生态落地,后者靠参数和 API 定价。
换句话说,小米正在完成一次根本转型:从卖硬件的科技公司,变成用 AI 重新定义用户生活方式的生态服务商。
MiMo-V2 系列只是这个战略的第一张牌。
05 竞争格局将如何重塑?
小米此番发力,直接把国产大模型的竞争推入新阶段。
最先感受到冲击的是价格体系。
MiMo-V2 系列 API 定价仅为 Claude Opus 4.6 的五分之一:256K 上下文以内,输入 1 美元 / 百万 token,输出 3 美元;即使扩展至 1M 上下文,费用也仅翻倍。
这一价格,直接把此前动辄数十美元的 Agent 调用门槛拉到极低。
有开发者反馈,不少团队在测试 MiMo Claw 免费体验后,已开始将部分生产任务迁移过来," 成本骤降 " 成为最常见的评价。
在国内市场,小米的突然入局也让格局出现明显裂变。
阿里通义、字节豆包等此前各自占据参数或应用优势的大模型,现在必须面对一个同时拥有顶级 Agent 能力和 10 亿 IoT 设备生态的对手。
小米补齐了中国大模型最缺的落地闭环,把竞争焦点从 " 谁的参数更大 " 彻底转向 " 谁能真正跑通真实场景 "。
对 DeepSeek 而言,压力也很直接:技术路线被继承,Agent 执行场景又被小米用硬件生态提前卡位。
全球视角下,小米正成为能与 Apple Intelligence 形成对标格局的硬件级 AI 生态。
苹果目前仍以封闭端侧小模型为主,强调隐私与本地计算;
小米则通过开放低价 API+ 全链路权限,实现云端意图理解到物理设备执行的无缝衔接。7 亿月活用户和澎湃 OS 的系统级控制权,可能会让小米在 AI 普惠速度上领先一步。
06 结语
匿名模型的发布,并不是一次简单的测试,而是小米技术自信的一次集中亮相。
这意味着,小米已经不满足于只做 AI 能力的承接者,而是在尝试进入模型、系统与生态协同更深的一层。
这套体系最终能否成立,还需要时间验证。
但可以确定的是,小米已经不再只是旁观这场竞赛,而是正式走进了牌桌中央。


登录后才可以发布评论哦
打开小程序可以发布评论哦