又有一个国产模型,悄悄跻身到了开源第一梯队。
这次不是 DeepSeek 也不是 Qwen,而是小米刚刚官宣的开源模型MiMo-V2-Flash。
仅用了 309B 的参数规模,该模型就展现出了极高的效能密度,在多项权威综合评测中均取得了令人瞩目的优异成绩。

不仅分数高,它还在实现 2.6 倍推理加速的同时,兼顾了顶尖的模型效果与极致的部署成本。

在小米刚刚举行的 " 人车家全生态 " 合作伙伴大会上,小米将该模型定义成了 " 迈向 Agent 时代的全新语言基座 "。

这个模型在海外也受到了广泛好评,X 网友评价说 MiMo-V2-Flash 将能够让智能体变得更加实用。

还有人在线许愿,希望能推出 gguf 格式,方便适配自己使用的模型框架。

从技术报告中,我们也了解到了小米在 MiMo-V2-Flash 背后采用的一系列关键技术:
5:1 混合注意力机制,采用 SWA 滑动窗口与全局注意力协同工作;可学习的注意力汇聚偏置,解决局部窗口导致的语义断层问题;MTP 多层 Token 预测,前向预测多个后续 Token,实现最高 2.6 倍推理加速;MOPD 在线策略蒸馏,以极低训练算力迅速追平教师模型能力。
具体来看——
给学生模型请一个 " 私教天团 "
MiMo-V2-Flash 采用了 MoE 架构,总参数量为 309B,包含 256 个专家,相比那些动辄参数量以 T 计的巨头模型和 2 倍参数量的开源模型,可谓是以小博大。
MiMo-V2-Flash 采用了动态激活机制,激活专家数为 8 个,对应参数量为 15B,其推理成本只有闭源竞品 Claude 4.5 Sonnet 的 2.5% 左右。

在长文本处理上,MiMo-V2-Flash 应用了滑动窗口注意力(SWA)和全注意力 5:1 混合的注意力结构。
SWA 是一种将每个 Token 的注意力视野严格限制在邻近局部窗口内的稀疏型注意力机制,就像阅读时采取 " 只看眼前 " 的策略,每次仅聚焦阅读当前的一小段文字,可以将注意力计算复杂度从全文长度的平方级降低为线性级。
这种方式,与同样以性价比为亮点的 DeepSeek 走了两条不相同的路—— DeepSeek 选择的是 Sparse 路径,而 MiMo-V2-Flash 则是选择了 Linear。
但是,SWA 在提高效率的同时可能导致语义断层和长文迷失的问题,为此,MiMo-V2-Flash 引入了可学习的注意力汇聚偏置(Attention Sink Bias)。
该技术通过在 Softmax 归一化的分母中引入一个可学习的汇聚项,允许注意力机制在局部窗口内没有合适匹配对象时,将多余的权重 " 泄洪 " 给这个虚拟锚点。
这种设计好比在快速浏览长文时始终按住一个 " 逻辑锚点 ",确保即便在极小的窗口下快速滑动,模型依然能保持对全文脉络的稳定把控。
MiMo-V2-Flash 的这种架构,在将 KV Cache 显存占用降低到 1/6 的情况下,长文理解能力不降反升。

有细致的网友从技术报告中发现,小米的滑动窗口大小只有 128k,但效果比 512k 的大窗口还要好。

推理加速环节则引入了MTP(多层 Token 预测)技术,该模块在推理时被复用为投机解码的草稿模型,通过增加计算算术强度来抵消显存带宽瓶颈,实现一次前向传播并行预测多个后续 Token。
简单讲,传统模型像挤牙膏一样一次只能蹦出一个字,而 MTP 技术让模型学会了抢答,能一次性草拟出后续的好几个词,主模型只需要做并行批改即可。
这种 " 一次预测、并行验证 " 的机制有效提升了推理效率,加载 3 层 MTP 模块后可实现 2-2.6 倍的实际推理加速比。

训练流程则采用了MOPD(多教师在线策略蒸馏)的新范式。
该方法通过构建特定领的教师模型网络,利用反向 KL 散度为学生模型提供密集的 Token 级奖励信号,有效解决了传统 RL 中的稀疏奖励与训练不稳定性问题。
这就好比给学生模型请了一组名师私教团,老师们会盯着学生的每一个解题步骤实时打分并纠正,让它仅需消耗传统 SFT+RL 流程约 1/50 的精力就能迅速出师,追平甚至超越老师的水平。

基于上述全链路工程化优化。模型成功在计算效率与显存利用率之间找到了最优解,在官方披露的 " 价格 vs 速度 " 坐标系中占据了显著的高能效生态位。
这种极致的技术压榨直接转化为了价格优势,其 API 定价仅为每百万输入 0.7 元、输出 2.1 元,真正意义上把高性能大模型的使用门槛从 " 奢侈品 " 打到了 " 日用品 " 级别。

双商在线,既会代码又懂情感
根据技术报告中公布的数据显示,MiMo-V2-Flash 展现出了极强的综合素质,在衡量通用能力的 Arena-Hard 基准测试中得分 86.2,在复杂推理任务 MMLU-Pro 中得分 84.9。
这些核心数据使其成功跻身开源第一梯队,完全具备了与顶尖模型分庭抗礼的实力。
代码能力是其最突出的长板,在 SWE-Bench Verified 评测中,该模型斩获了 73.4% 的高分,这一成绩成功超越了 DeepSeek-V3.2(73.1%)和 Kimi-K2 Thinking(71.3%)。
另外,在Agent 能力方面,模型表现出卓越的泛化性与稳健性,其在 SWE-Bench Multilingual 测试中解决了 71.7% 的问题,在衡量工具使用能力的 Tau2-Bench 中得分达到 80.3,这两项关键指标均位列全球开源模型前茅。

官方给出的成绩单的确表现亮眼,那么 MiMo-V2-Flash 在真实场景当中的表现又如何呢?我们进行了一手实测。
先看小米最引以为傲的编程能力,MiMo-V2-Flash 在具体的工程化场景中模型展现出了极高的完成度。
例如在要求用前端代码构建一个网页版 macOS 操作系统时,它能一次性生成完整代码架构。
提示词如下:

我们打开 " 文件管理器 ",创建文件并编辑,之后再返回到原来的目录中,文件依然还在且内容和创建时一致。

再通过命令行模式浏览文件,依然是之前的内容。

对比看下闭源模型扛把子 Gemini 3 Pro,写出的网页相比 MiMo-V2-Flash 少了壁纸更换功能。

△Gemini 3 Pro 作品
而且 Gemini 版顶部的菜单栏无法点击,在 MiMo-V2-Flash 版中就不存在这个问题。

而且 MiMo-V2-Flash 不仅能在网页中模拟这种复杂的操作,还能够调用各种不同的 HTML 接口,甚至是引入基于摄像头的手势控制。
比如这是一个通过手掌的开合来控制的圣诞树,这次的提示词是中文的。

实际运行起来,MiMo-V2-Flash 写的网页完美实现了手势控制。

相比之下,Gemini 3 Pro 看似写出了一大堆代码,但渲染出来只有一个静态网页。

利用摄像头,MiMo-V2-Flash 还可以写出一个二维码扫描工具,可以把二维码直接在镜头前展示,获得扫码结果。

提示词是这样的:
这次 Gemini 3 Pro 的作品虽然也能实现摄像头扫码,但是忽略了支持图片上传的要求。

另外,如果使用 API,效果会比前面看到的网页版结果更好。
在代码能力出众的同时,MiMo-V2-Flash 并不是一个只会输出成果的冰冷工具,而是成为了一个同时具备温度感的 " 全能选手 "。
在人文交互与语义理解方面,模型在探讨 " 人生价值 " 或 "AI 自我认知 " 等开放性话题时,回复展现出清晰的逻辑与拟人化的温度。
比如当我们问出 " 如果给你一个机会,你想要成为人类吗 " 这个问题时,MiMo-V2-Flash 给出了这样的高情商回复:

有时候,我们面临的情感难题,MiMo-V2-Flash 也可以给出建议,比如作为朋友该不该去参谋朋友的恋爱关系。
MiMo-V2-Flash 指出,这个问题并不在于该不该参与,而是在于参与的时机和方式,提醒我们要帮助朋友认清情况,而不是做出选择。

从中可以看出,MiMo-V2-Flash 的确是一个双商都在线的" 高情商理科生 "。
目前,官方已上线 Xiaomi MiMo Studio 供用户直接体验,其底层架构支持 SGLang 推理加速,且 API 接口设计已一键兼容 Claude Code、Cursor、Cline 等主流开发工具,便于开发者将这一高性能基座无缝接入现有的工作流中。
小米的物理 AGI 野心
梳理小米大模型的 " 练级 " 路线,能看到一条非常清晰的轨迹。
MiMo 一代时做的 7B 模型,更像是在 " 积攒家底 ",把全套技术流程跑通,把该踩的坑都踩一遍,主打一个稳扎稳打;而到了现在的 MiMo 二代,首发的 MiMo-V2-Flash 直接就达到了世界先进水平。
它的核心逻辑非常简单直接,就是死磕 " 高效 + 智能 " ——既要让模型跑得快、用起来便宜,脑子还得足够灵光。
按照官方的规划,Flash 这个纯语言模型只是个 " 开路先锋 ",紧接着就会有能看懂图、听懂话的多模态模型登场,后面还藏着更多让行业惊喜的大招。
这种步步为营的节奏说明,小米并不是在跟风凑热闹,而是有着一张极具延续性的技术蓝图。
透过这种高强度的技术投入,一个核心的战略信号已经藏不住了——小米正在加速从一家硬件大厂,向一家拥有独立底层核心的 " 大模型公司 " 转型。
小米在 " 人车家全生态 " 合作伙伴大会上指出,生物智能的进化严格遵循 " 先学会控制身体、再在大脑模拟未来、最后诞生语言符号 " 的金字塔逻辑,但当下的 AI 实际上是在走一条 " 从语言出发、逆向补齐物理感知 " 的反向进化路径。

这种 " 逆向进化 " 的视角,完美解释了小米为何要加速向 " 大模型公司 " 转型——
小米背后站着的是手机、汽车、智能家居这数以亿计的实体硬件,组成了全球独一无二的 " 人车家 " 生态。在这样一个圈子里,AI 必须要成为一个逻辑严密、能写代码、会熟练使用各种工具的 " 操盘手 "。
小米需要的大模型,不仅要能听懂人话,还得能把这些话瞬间翻译成机器听得懂的指令,去精准地指挥空调调节温度、汽车规划路线或者让机器人递个杯子。
如果不自己造这个底层基座,光靠借用别人的模型,根本没法满足这种对控制精度和响应速度的变态要求。
所以,与其说小米是在卷大模型,不如说它是在给自己的硬件帝国造一个统一的 " 大脑 "。
它并不满足于在虚拟世界里争夺流量,而是想打造一个能真正打通 " 数字世界 " 和 " 物理世界 " 的底座。
在这个愿景里,AI 不再是活在服务器里的聊天机器人,而是变成了能感知现实、操控硬件的智能中枢。
这种向" 物理世界 AGI"迈进的尝试,不仅是为了给下一代智能硬件交互提供动力,更可能是小米这盘大棋背后真正的野心所在。


登录后才可以发布评论哦
打开小程序可以发布评论哦