
文|郭晓静
编辑|徐青阳
12 月 17 日,2025 小米 " 人车家全生态合作伙伴大会 " 举办。在这次大会上,小米 MiMo 团队负责人罗福莉完成了首秀演讲。作为前 DeepSeek 核心成员,罗福莉自从加入小米,就被视为小米 AI 研发走向 " 正规军化 " 和 " 极客化 " 的里程碑。
市场曾期待她能带来像 DeepSeek 那样颠覆性的 " 小而美 " 模型,而罗福莉身上 AI 时代的极客特质,也许能与小米初创时期的极客基因完美相融,产生新的化学反应。
罗福莉的首秀略显紧张,但不负众望,她带来了一个高效的模型 MiMo-V2-Flash,也抛出了新的 AGI 梦想。
在她看来,现在的模型大多只是 " 完美的语言外壳,没有锚定现实世界的物理模型 ";" 真正的智能是从交互中活出来的 ",通往 AGI 的必经之路,不是打造一个程序,而是 " 推演整个世界的运作逻辑,打造一个虚拟宇宙 "。
这次首秀,罗福莉确实带来了鲜明的 "DeepSeek 基因 ",比如 MoE 架构、MTP 技术和对极致效率的追求。
此次开源的 MiMo-V2-Flash 模型,它具备三个核心特点:
高效推理:虽然总参高达 309B,但通过 MoE 架构仅激活 15B,结合被低估的 MTP(多令牌预测)技术,生成速度达到 150 tokens/ 秒。这带来约 2.5 倍加速,主要为了解决车机、助手等端侧交互对延迟的敏感。
创新的长文本架构:设计上追求 " 简单优雅 ",采用 Hybrid SWA 机制,锁定 128 tokens 的 " 神奇窗口 "。这不仅支持 256K 长上下文,固定了 KV 缓存以降低硬件压力,还在代码生成上刷新了 SOTA。
极高的性价比:落地层面非常务实,后训练阶段采用 MOPD 技术,用极低的计算量(不到标准流程 1/50)复刻教师模型性能,意在降低大规模部署的成本。

这场首秀被安排在 " 人车家全生态 " 大会上,意义耐人寻味。罗福莉在小米的职责很明确:主导大模型研发,通过高效推理与智能体技术,推动 AI 从 " 语言交互 " 跨越到 " 物理世界 ",赋能全生态。
但客观来看,端侧 AI 智能、赋能全生态的理想还在路上,现在的硬件依然难以支撑这样一个已经 " 极致效率 " 的模型。
以当前最高端的旗舰手机为例,端侧模型的舒适区依然停留在 3B 到 7B 参数之间。MiMo-V2-Flash 的 15B 激活参数,对移动设备而言依然是 " 房间里的大象 "。
所谓的 " 高效推理 ",更多是指在云端数据中心实现了高吞吐量,对于用户手中的终端,这依然是一个重度依赖网络的 " 云端模型 "。
虽然有惊喜,但是此次小米并没有打破端侧 AI 的算力天花板,对于期待 "AI 手机 " 变革的用户而言,还需要继续等待。
但今天的罗福莉,确实在给小米,讲了一个可围绕 " 人车家生态的 "、新的 AGI 故事。

以下为演讲实录(为优化阅读体验,做了二次编辑、删减):
一、 从生物演变看 AI 发展路径
今天我想带大家换一个视角,从 10 亿年生物进化的长河中,重新去审视我们正在经历的这一场 AI 变革。
如果我们回到生命进化的历程,会发现自然界在构建智能这座金字塔时,遵循着非常严密的逻辑:在 6 亿年前,生命首先学会了控制身体与环境互动;紧接着进化出了多巴胺系统,通过强化学习进一步提升生存能力;在 2 亿年前,哺乳动物的大脑首次具备了在行动前先在大脑里模拟未来的能力;最终我们发现,人类才登上了智能的塔尖,掌握了语言这一抽象的符号系统。
所以我们能看到,生物演化的规律是先具备对物理世界的感知和生存体验,最后才诞生了语言。但大家都能发现,到现在为止,大模型的发展路径其实跟生物进化路径是不同步的,甚至说是一种倒叙,或者说是一种跳跃。

生物是先从行动进化到思考,再进化到语言;但是大模型是先学会了语言,再去补齐它的思考能力,最后再去补齐对物理世界的模拟以及具身感知。
为什么大模型智能的产生首先是在语言领域?因为语言不仅仅是一种符号的排列组合,更是人类思维以及对于世界的一种描述。在文本领域的投射,本质上是一种有损压缩。当大模型通过 Next Token Prediction(下一词预测)这种范式在海量文本里进行学习,试图把 Loss(损失函数)降到最低的时候,我们发现它不仅仅是在拟合一个统计规律,而是在压缩人类数十亿年间关于这个世界的认知同构。
这种压缩的过程,在我们看来就是一种智能。所以,大模型通过语言的爆发,通过 Scaling(扩展)算力和数据,从而理解了人类的思维和对世界的理解。但其实它并不真正像人类一样具备对整个物理世界的感知。严谨来说,它应该是成功地解码了人类思维在文本空间的一个投影。大家都能看到,这其实是一种自顶向下的捷径,因为它是在学习一种智能的结果,来倒推智能产生的过程。
二、 MiMo-V2-Flash 的诞生,解决三大核心问题
不管怎么说,语言包含了人类对世界极致的压缩,是智慧的结晶,也是高阶智能体之间高效协作的工具。因此,小米从语言出发,构建了全新一代面向 Agent(智能体)的基座模型—— MiMo-V2-Flash。
MiMo-V2-Flash 在研发之初,主要围绕着三个非常关键的问题展开:
第一,我们认为当代的智能体必须要有一个高效的沟通语言,即代码能力和工具调用能力。
第二,目前智能体之间的沟通带宽非常低,如何加速带宽?这需要一个推理效率极高的模型结构。
第三,Scaling 的范式已经逐步从预训练(Pre-train)转向后训练(Post-train),我们如何激发后训练的潜能?这就需要一个稳定的范式,以便在强化学习(RL)上投入更多的 Compute(算力)。
在这三个问题的驱动下,我们看到了 MiMo-V2-Flash 超强的基座潜能。虽然它的总参数在我看来非常小——总参数 309B,激活参数只有 15B,我甚至都不愿意称它为 " 大 " 模型——但它的代码能力和 Agent 能力在世界级公开公正的评估榜单上,已经进入了全球开源模型 Top 1-2 的行列。
基本上,大部分评估基准已经超过或者与 DeepSeek-V3、Kimi、Qwen 等模型相当,而这些模型的总参数量通常是 MiMo-V2-Flash 的两倍到三倍。

三、 性能与成本的平衡,挑战推理不可能三角
这个图展示了全球相同水位大模型在价格和速度上的比较:横轴是推理价格(从大到小),纵轴是推理速度(从小到大)。我们能看到 MiMo 在右上角,代表了低成本、高速度。
举两个 benchmark 进行对比: 比如 DeepSeek-V3.2,MiMo-V2-Flash 比它更便宜一点,但推理速度大概是 V3.2 的三倍左右。
再比如 Gemini 2.5 Pro,虽然综合性能相当,且推理速度差不多,但 Gemini 2.5 Pro 的推理成本比 MiMo-V2-Flash 贵了整整 20 倍。
四、 架构创新与 MTP 加速
那么我们是怎么做到这一切的呢?核心关键在于围绕 " 极致推理效率 " 重新设计模型结构,主要依靠两个创新。
第一个是 Hybrid Attention(混合注意力)结构。我们采用了 Hybrid Sliding Window Attention(混合滑动窗口注意力)和 Full Attention(全局注意力),比例大概是 5:1。
为什么选 Sliding Window Attention?因为它看起来非常简单,只关注邻域的 128 个 Token。经过大量实验验证,我们发现一些看似复杂的 Linear Attention(线性注意力)结构,在兼顾长短文推理和知识检索的综合性能上,其实并不如简单的 Sliding Window Attention。更重要的是,它的 KV Cache 是固定的,能非常好地适配当代主流的 Infra(基础设施)推理框架。

图:MiMo-V2-Flash 全局注意力(GA)和滑动窗口注意力(SWA)的 1:5 混合结构
第二个是 挖掘 MTP(Multi-Token Prediction,多令牌预测)的潜力。MTP 一开始被提出是用于做推理加速的,后来 DeepSeek 将其用于提升基座模型能力。我们在训练时加入了一层 MTP 层以提升基座潜能,并且在微调时加入了更多层的 MTP,用少量算力就提升了 MTP 层的接受率。
最终推理时,我们使用了三层 MTP 进行加速并行 Token 验证。在实际场景中,这种方式能做到 2.2 到 2.6 倍的推理加速。
在社区关于三层 MTP 的情况下,我们来看模型输出吞吐:在单机吞吐能做到 5,000~15,000 Tokens/ 秒的基础上,单请求吞吐也能做到 150~155 Tokens/ 秒。使用 MTP 相比不使用,整体速度提升了 2 到 3 倍。
五、 训练范式革新:MOPD 与自进化
除了关注预训练结构的高效性,我们还在思考如何扩展强化学习训练的 Compute。强化学习训练通常非常不稳定,因此我们提出了 MOPD(Multi-Teacher On-Policy Distillation,多教师在线策略蒸馏) 范式。

它的核心在于 On-Policy,依赖稠密的 Token Level Reward(令牌级奖励)进行监督学习。通常 Post-train 范式会通过 SFT 和 RL 拿到各领域专家模型。MOPD 则会让 Student(学生)模型基于自身概率分布 Roll out(生成)一些序列,然后用专家模型对这些序列进行打分,提供非常稠密的监督信号。
我们发现这种学习效率极高,通过简短的几十步就能将各领域专家的能力快速蒸馏到 Student 模型上。
此外,我们还有一个意外发现:当 Student 很快超越 Teacher 时,我们正在尝试将 Teacher 替换成更强的 Student,继续自我迭代提升,这是一个正在进行中的工作。
六、 迈向物理世界:从语言模拟到真实交互
MiMo-V2 已经初步具备在语言空间模拟世界的能力。比如,我们可以通过 HTML 让它写一个操作系统,很多功能都是可实现的;或者写一个 HTML 模拟太阳系;甚至做一个画圣诞树并产生交互的小 Demo。

MiMo-V2-Flash 已经在昨天发布,我们开源了所有模型权重,同步了技术报告细节,并提供了 API 供开发者接入 Web Coding IDE。我们的体验 Web 也已上线,大家可以扫描试用。
虽然现在的大模型能聊天、能写代码,但我相信大家还是不放心把身边复杂的任务交给它。我认为真正的下一代智能体系统,不应该只是一个语言模拟器,而是需要跟世界共存。
下一代智能体必须具备两个潜能: 第一,从 " 回答问题 " 变成 " 完成任务 "。 这不仅需要记忆、推理、规划能力,更需要一个 Omni(全模态)的感知能力。做一个统一的动态系统非常必要,这是理解世界的基础。有了这个基础,模型才能无缝嵌入到像眼镜这样的智能终端,融入我们的生活流。

第二,构建物理模型。 回到开头的话题,现有大模型本质上是用算力的 " 暴力美学 " 攻克了顶层的语言和第二层的强化学习,但跳过了中间对世界的感知和模拟,以及底层的实体交互。这就是为什么大模型能做奥数、模仿莎士比亚,却不懂重力等物理法则,经常产生具身幻觉。
因此,AI 进化的下一个起点,一定要有一个可以跟真实环境交互的物理模型。我们要打造的本质上不是一个程序,而是一个具备物理一致性、时空连贯性的虚拟宇宙。
这意味着 AI 能力的本质跨越——不仅仅是看懂画面,而是理解背后的物理规律;不仅仅是处理文本,而是推演世界的运作逻辑。真正的智能绝对不是在文本里读出来的,而是在交互里 " 活 " 出来的。


