
智东西(公众号:zhidxcom)
作者 | 陈佳
编辑 | 云鹏
智东西 6 月 24 日报道,昨日,小米 MiMo 开放平台发布公告,宣布延长旗下 MiMo-V2.5-Pro-UltraSpeed 模型的聊天体验与 API 接入体验期限。该模型于 6 月 9 日上线,原定体验窗口截至 6 月 23 日,但由于申请量远超预期,团队决定延长开放时间。

▲关于 MiMo-V2.5-Pro-UltraSpeed 限时体验延期的通知(图源:小米 MiMo)
官方数据显示,截至 6 月 23 日,MiMo-V2.5-Pro-UltraSpeed 已收到超过6.6 万个使用申请,申请者包含世界 500 强公司、行业头部企业与个人开发者,涵盖法律、金融、通信、物流、汽车制造、文化传媒、高校等多个领域。
小米 MiMo 团队在公告中称,申请量 " 远超预期 ",并强调 " 极致的推理速度将带来行业全新的使用场景与范式 "。
延期后,用户可继续申请内测,已审核通过的用户可继续使用,具体下线时间将根据资源情况另行安排。
回顾此前的发布情况,MiMo-V2.5-Pro-UltraSpeed 是小米 MiMo 团队与 AI 推理系统团队 TileRT 联合推出的极速推理模式,首次在万亿参数(1T)旗舰模型上突破 1000 tokens/s 的输出速度,峰值可达约 1200 tokens/s。
该模型基于 MoE 架构,总参数量 1T,单次前向传播激活参数约 420 亿,支持 100 万 token 超长上下文。

▲雷军发文宣布 MiMo-V2.5-Pro-UltraSpeed 新进展(图源:新浪微博)
小米称,UltraSpeed 的实现路径不依赖 Cerebras 晶圆级芯片或 Groq 定制 SRAM 芯片等专用硬件方案,而是在一个标准 8 卡通用 GPU 节点上,通过模型侧和系统侧协同优化,让 1T 模型突破 1000 tokens/s 输出速度。
模型侧,小米采用 FP4 混合量化,主要对 MoE Expert 进行 FP4 量化,其他模块保留较高精度,以降低模型体积和访存压力。同时,MiMo 引入 DFlash 投机解码,用块级 Masked 并行预测替代传统 Draft 模型逐 token 自回归,让大模型一次验证更多候选 token。
系统侧,TileRT 为 FP4 量化和 DFlash 流程定制编译引擎与计算核,并通过常驻内核引擎、异构流水线协作等方式减少算子启动和同步开销。小米在 Hugging Face 开源的 MiMo-V2.5-Pro-FP4-DFlash 模型卡称,该模型是 UltraSpeed 背后的底层模型,包含 FP4 量化 backbone 和 BF16 DFlash drafter,许可证为 MIT。
在定价方面,UltraSpeed API 采用限时体验价,定价为标准版 MiMo-V2.5-Pro 的 3 倍,同时提供约10 倍的输出速度提升。以官方定价为参照,标准版 MiMo-V2.5-Pro 缓存命中输入 0.025 元 / 百万 tokens,缓存未命中输入 3 元 / 百万 tokens,输出 6 元 / 百万 tokens,UltraSpeed 输出定价约为 18 元 / 百万 tokens(约合 2.65 美元 / 百万 tokens)。
作为参照,Anthropic 最新旗舰模型 Claude Opus 的 API 公开定价为输入 5 美元 / 百万 tokens(约合人民币34 元),输出 25 美元 / 百万 tokens(约合人民币 170 元)。
1000 tokens/s 的速度,放在行业坐标中也有冲击力:据 AI 基准测试平台 Artificial Analysis 的数据,GPT-5.5 的输出速度约为62 至 68 tokens/s,Claude Opus 约71 tokens/s,Gemini Flash 约192 至 200 tokens/s。
此前,UltraSpeed 在海外开发者社区引发强烈反响。该话题在技术社区 Hacker News 上成为热帖,社交平台 X 上有开发者直言 "8 卡通用 GPU 节点跑出万亿 MoE 模型的 1000 tokens/s,太疯狂了",也有人对 MoE 架构下 " 万亿参数 " 的可比性提出质疑。
申请入口:
https://platform.xiaomimimo.com/ultraspeed
Chat 体验入口:
https://ultraspeed.xiaomimimo.com
Hugging Face 地址:
https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash


登录后才可以发布评论哦
打开小程序可以发布评论哦