6 月 8 日晚,小米 MiMo 技术团队正式上线 Xiaomi MiMo-V2.5-Pro-UltraSpeed 模式,在通用 GPU 上推理速度突破 1000 tokens/s。
MiMo-V2.5-Pro-UltraSpeed 通过对模型推理系统的全链路工程能力优化,在不降低模型能力前提下,首次把推理速度提升至 1000 tokens/s,且无需定制芯片、只使用通用 GPU 即可达成。这一突破打破了 " 快、强、通用 GPU 无法兼得 " 的行业不可能三角。
小米 MiMo 技术团队表示,该突破是基于 Xiaomi MiMo-V2.5 Pro 的 SWA 架构,叠加了 FP4 Experts、DFlash 解码以及 TileRT 团队的执行系统 Co ‑ design,从模型到推理引擎再到 GPU 执行路径进行了全链路优化。
即日起至 6 月 23 日,MiMo-V2-Pro-UltraSpeed 模式将采取申请制限时开放,通过申请的用户可接入 API 进行体验。
自 4 月底以来,小米 AI 在模型能力、推理成本和推理效率三个维度接连取得突破:4 月 23 日, MiMo-V2.5-Pro 在全球权威大模型测评平台 Artificial Analysis 上,获得综合智能指数与 Agent 指数全球开源模型并列第一;5 月 27 日,Xiaomi MiMo-V2.5 系列模型 API 因技术优化宣布最高降价 99%,并同步调整 Token Plan 计费体系。6 月 8 日,MiMo-V2.5-Pro-UltraSpeed 以 1000 tokens/s 创下万亿参数旗舰模型推理速度新纪录。


登录后才可以发布评论哦
打开小程序可以发布评论哦