小米大模型上线新模式推理速度突破1000 tokens/s

6 月 8 日晚，小米 MiMo 技术团队正式上线 Xiaomi MiMo-V2.5-Pro-UltraSpeed 模式，在通用 GPU 上推理速度突破 1000 tokens/s。

MiMo-V2.5-Pro-UltraSpeed 通过对模型推理系统的全链路工程能力优化，在不降低模型能力前提下，首次把推理速度提升至 1000 tokens/s，且无需定制芯片、只使用通用 GPU 即可达成。这一突破打破了 " 快、强、通用 GPU 无法兼得 " 的行业不可能三角。

小米 MiMo 技术团队表示，该突破是基于 Xiaomi MiMo-V2.5 Pro 的 SWA 架构，叠加了 FP4 Experts、DFlash 解码以及 TileRT 团队的执行系统 Co ‑ design，从模型到推理引擎再到 GPU 执行路径进行了全链路优化。

即日起至 6 月 23 日，MiMo-V2-Pro-UltraSpeed 模式将采取申请制限时开放，通过申请的用户可接入 API 进行体验。

自 4 月底以来，小米 AI 在模型能力、推理成本和推理效率三个维度接连取得突破：4 月 23 日， MiMo-V2.5-Pro 在全球权威大模型测评平台 Artificial Analysis 上，获得综合智能指数与 Agent 指数全球开源模型并列第一；5 月 27 日，Xiaomi MiMo-V2.5 系列模型 API 因技术优化宣布最高降价 99%，并同步调整 Token Plan 计费体系。6 月 8 日，MiMo-V2.5-Pro-UltraSpeed 以 1000 tokens/s 创下万亿参数旗舰模型推理速度新纪录。

宙世代

一起剪

相关标签