6.6万人排队!小米旗舰“超速”模型延长体验时间,官方:500强争着用

智东西（公众号：zhidxcom）

作者 | 陈佳

编辑 | 云鹏

智东西 6 月 24 日报道，昨日，小米 MiMo 开放平台发布公告，宣布延长旗下 MiMo-V2.5-Pro-UltraSpeed 模型的聊天体验与 API 接入体验期限。该模型于 6 月 9 日上线，原定体验窗口截至 6 月 23 日，但由于申请量远超预期，团队决定延长开放时间。

▲关于 MiMo-V2.5-Pro-UltraSpeed 限时体验延期的通知（图源：小米 MiMo）

官方数据显示，截至 6 月 23 日，MiMo-V2.5-Pro-UltraSpeed 已收到超过6.6 万个使用申请，申请者包含世界 500 强公司、行业头部企业与个人开发者，涵盖法律、金融、通信、物流、汽车制造、文化传媒、高校等多个领域。

小米 MiMo 团队在公告中称，申请量 " 远超预期 "，并强调 " 极致的推理速度将带来行业全新的使用场景与范式 "。

延期后，用户可继续申请内测，已审核通过的用户可继续使用，具体下线时间将根据资源情况另行安排。

回顾此前的发布情况，MiMo-V2.5-Pro-UltraSpeed 是小米 MiMo 团队与 AI 推理系统团队 TileRT 联合推出的极速推理模式，首次在万亿参数（1T）旗舰模型上突破 1000 tokens/s 的输出速度，峰值可达约 1200 tokens/s。

该模型基于 MoE 架构，总参数量 1T，单次前向传播激活参数约 420 亿，支持 100 万 token 超长上下文。

▲雷军发文宣布 MiMo-V2.5-Pro-UltraSpeed 新进展（图源：新浪微博）

小米称，UltraSpeed 的实现路径不依赖 Cerebras 晶圆级芯片或 Groq 定制 SRAM 芯片等专用硬件方案，而是在一个标准 8 卡通用 GPU 节点上，通过模型侧和系统侧协同优化，让 1T 模型突破 1000 tokens/s 输出速度。

模型侧，小米采用 FP4 混合量化，主要对 MoE Expert 进行 FP4 量化，其他模块保留较高精度，以降低模型体积和访存压力。同时，MiMo 引入 DFlash 投机解码，用块级 Masked 并行预测替代传统 Draft 模型逐 token 自回归，让大模型一次验证更多候选 token。

系统侧，TileRT 为 FP4 量化和 DFlash 流程定制编译引擎与计算核，并通过常驻内核引擎、异构流水线协作等方式减少算子启动和同步开销。小米在 Hugging Face 开源的 MiMo-V2.5-Pro-FP4-DFlash 模型卡称，该模型是 UltraSpeed 背后的底层模型，包含 FP4 量化 backbone 和 BF16 DFlash drafter，许可证为 MIT。

在定价方面，UltraSpeed API 采用限时体验价，定价为标准版 MiMo-V2.5-Pro 的 3 倍，同时提供约10 倍的输出速度提升。以官方定价为参照，标准版 MiMo-V2.5-Pro 缓存命中输入 0.025 元 / 百万 tokens，缓存未命中输入 3 元 / 百万 tokens，输出 6 元 / 百万 tokens，UltraSpeed 输出定价约为 18 元 / 百万 tokens（约合 2.65 美元 / 百万 tokens）。

作为参照，Anthropic 最新旗舰模型 Claude Opus 的 API 公开定价为输入 5 美元 / 百万 tokens（约合人民币34 元），输出 25 美元 / 百万 tokens（约合人民币 170 元）。

1000 tokens/s 的速度，放在行业坐标中也有冲击力：据 AI 基准测试平台 Artificial Analysis 的数据，GPT-5.5 的输出速度约为62 至 68 tokens/s，Claude Opus 约71 tokens/s，Gemini Flash 约192 至 200 tokens/s。

此前，UltraSpeed 在海外开发者社区引发强烈反响。该话题在技术社区 Hacker News 上成为热帖，社交平台 X 上有开发者直言 "8 卡通用 GPU 节点跑出万亿 MoE 模型的 1000 tokens/s，太疯狂了"，也有人对 MoE 架构下 " 万亿参数 " 的可比性提出质疑。

申请入口：

https://platform.xiaomimimo.com/ultraspeed

Chat 体验入口：

https://ultraspeed.xiaomimimo.com

Hugging Face 地址：

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash

宙世代

一起剪

相关标签