11 个小时前,小米深夜 " 突袭式 " 发布并开源了其最新的专家混合架构(MoE)大语言模型 MiMo-V2-Flash。该模型总参数量达 3090 亿,活跃参数为 150 亿,采用对开发者友好的 MIT 开源协议,基础版权重也已经在 Hugging Face 上发布。

小米 MiMo 团队负责人罗福莉(Fuli Luo)在社交平台上明确表示:"MiMo-V2-Flash 已经上线。这只是我们 AGI 路线图上的第二步。"这一表态凸显了小米在 AI 领域的长远规划和技术雄心。

从市场影响来看,MiMo-V2-Flash 的入局可能搅动现有开源 AI 模型的竞争格局。其官方公布的每百万输入 token 0.1 美元、输出 token 0.3 美元的极低成本,结合高达 150 tokens/ 秒的推理速度,为开发者和企业提供了极具吸引力的选择,或将加速高性能 AI 技术在更广泛场景的应用和普及,尤其是对其庞大的 " 手机 x AIoT" 生态系统形成强大赋能。

性能媲美 DeepSeek-V3.2,并且 " 极具性价比 "
MiMo-V2-Flash 在多个权威基准测试中展现了强大的实力,其性能表现足以和部分顶尖的开源及闭源模型同台竞技。
根据小米官方公布的数据,在衡量编程能力的 SWE-bench Verified 测试中,MiMo-V2-Flash 取得了 73.4% 的得分,超越了所有已知的开源模型,并接近顶级闭源模型的水平。
在 AIME 2025 数学竞赛和 GPQA-Diamond 科学知识测试等考验推理能力的项目中,该模型也位列开源模型前两名。摩根士丹利的研报图表亦显示,MiMo-V2-Flash 在综合性能上与 DeepSeek-V3.2 等主流大模型相比具有竞争力。


在愈发重要的智能体(Agent)任务上,MiMo-V2-Flash 同样表现出色。数据显示,其在 τ² -Bench 分类得分中,通信、零售、航空等多个类别均获得高分,证明其具备理解复杂任务逻辑和执行多轮交互的能力。
小米方面表态现实,该模型的高性能与 150 tokens/ 秒的推理速度,加上极低的运营成本,使其成为现有最高性价比的高性能模型之一。目前,该模型已在 API 平台限时免费开放,并以 MIT 开源协议在 Hugging Face 上发布了基础版权重。

" 极致性价比 " 背后的技术创新:解锁效率与长文本能力
MiMo-V2-Flash 之所以能在保持高性能的同时实现低成本和高效率,得益于其在模型架构和训练方法上的多项关键技术创新。
首先,是" 混合滑动窗口注意力机制 "(Hybrid Sliding Window Attention)。小米采用了一种 5:1 的混合比例,即每 5 层滑动窗口注意力(SWA)搭配 1 层全局注意力,将 KV 缓存(一种用于存储中间结果的内存)的存储量减少了近 6 倍,同时依然支持高达 256k 的超长上下文窗口。
罗福莉(Fuli Luo)在其 X 帖子中分享了工程细节:" 我们最终选择了混合 SWA。它简单、优雅,并且在我们的内部基准测试中,其长上下文推理能力优于其他线性注意力变体。" 她特别指出一个反直觉的发现,即 128 个 token 的窗口大小是 " 最佳选择 ",盲目扩大到 512 反而会导致性能下降,并强调 "sink values 是不可或缺的 "。

其次,是轻量级多 Token 预测(Lightweight Multi-Token Prediction, MTP)。该技术使模型能一次并行预测多个 token,而非传统的逐字生成,从而将推理速度提升 2 至 2.6 倍。
罗福莉透露:" 通过 3 层 MTP,我们观察到平均接受 token 数超过 3 个,编码任务速度提升约 2.5 倍。" 她补充说,这项技术有效解决了 GPU 的空闲时间问题,尽管因项目周期紧张此次未能完全整合进强化学习(RL)循环,但小米已将 3 层 MTP 开源,供开发者使用。
今年 11 月,曾效力 DeepSeek 的罗福莉在 X 上高调宣布正式加入小米,出任 MiMo 团队负责人。小米 MiMo 是小米推进大模型研发的核心招牌,随着罗福莉的官宣,小米 MiMo 也被一并明确,剑指最前沿——空间智能。

训练 " 黑科技 ":1/50 算力实现性能对齐
在训练阶段,小米采用了业界领先的技术以最大化效率。模型在预训练阶段使用了 FP8 混合精度技术,在 27 万亿 token 的数据上完成训练。
更具突破性的是在后训练阶段引入的多教师在线策略蒸馏(Multi-teacher Online Policy Distillation, MOPD)框架。据小米介绍,该方法借鉴了 Thinking Machine 的 On-Policy Distillation 思路,让学生模型在训练时能从多个专家教师模型处获得密集的奖励信号。其最显著的优势在于效率,仅需传统 SFT(监督微调)与强化学习相结合方法的 1/50 算力,就能让学生模型达到教师模型的性能峰值。

罗福莉指出,这一框架为构建一个 " 自我强化循环系统 " 奠定了基础,即今天的学生模型在进化后可以成为明天更强的教师模型,从而实现模型的持续、高效迭代。
小米的 AI 版图:从手机到 AGI
MiMo-V2-Flash 的发布,并非一次孤立的技术展示,而是小米 AI 战略的重要组成部分。正如罗福莉所言,这只是其 AGI 路线图的 " 第二步 ",暗示了后续将有更深入的布局。
此举清晰地表明了小米正全力将 AI 打造为其核心竞争力之一。据摩根士丹利发布的研报观点称,此举 " 展示了小米对 AI 研发的承诺 ",并预计该公司未来将在云端 AI 和边缘 AI 两方面取得更多实质性进展。而强大的自研 AI 底层能力,将为其手机、IoT 设备乃至新能源汽车等硬件产品带来独特的智能化体验,构筑更深的生态护城河。
摩根士丹利认为,MiMo-V2-Flash 的推出,不仅可能重塑开源 AI 模型市场格局,更揭示了小米意图通过自研 AI 技术深度赋能其 " 人车家 " 全生态的战略野心。
十四年前,小米手机以 1999 元的价格重新定义了旗舰智能手机市场。如今,小米似乎希望通过 MiMo-V2-Flash,以其卓越的性能和颠覆性的成本,为开源 AI 领域带来一个新的 " 小米时刻 "。

体验模型可戳:https://aistudio.xiaomimimo.com/#/


