小米MiMo-V2.5-Pro-UltraSpeed正式发布 1T参数模型

【CNMO 科技消息】6 月 9 日，MiMo × TileRT 联合发布Xiaomi MiMo-V2.5-Pro 的 UltraSpeed 模式。通过模型与系统的极致协同设计（Codesign），在通用 GPU 上首次将万亿参数（1T）模型的生成速度突破1000tokens/s。据悉，UltraSpeed 模式采用限时开放、申请制体验。API 同步上线，定价为 MiMo-V2.5-Pro 的 3 倍，同时提供输出速度约 10 倍的提升（仅支持 API 体验，不支持 TokenPlan）。由于高速推理资源供给有限，本次体验时间仅限2026 年 6 月 9 日至 6 月 23 日 23:59。每个账号每日最多成功进入队列 10 次，单次会话时长上限 30 分钟，空闲超 5 分钟自动释放资源。

在万亿参数尺度上突破 1000tps，带来 AI 应用范式的底层颠覆：

速度转化为智能：在相同等待时间内，模型可并行跑数十条推理路径（Best-of-N/Tree Search），自动验证纠错，提升推理质量。

解放 Coding Agent：极速推理让开发者告别等待，实现颠覆性的代码编写速度与生产效率。

万亿模型进入实时决策闭环：毫秒级响应可接入高频量化交易、瞬时反欺诈风控、智能竞价、实时交互对话，乃至手术辅助、医疗影像分析等生命垂危场景——速度成为与死神赛跑的筹码。

实现 1T 旗舰模型突破 1000tps，是 MiMo 模型与 TileRT 系统团队深度协作、极致 Codesign 的成果。业界追求类似速度时往往选择专用硬件（如 Cerebras 晶圆级集成、Groq 定制芯片），而 MiMo × TileRT 仅在标准通用 GPU 上，通过一个 8 卡节点便实现了这一速度。

模型侧：

FP4 量化：针对 MoE 架构特性，仅对 MoE Expert 进行 FP4 量化（经 QAT 量化感知训练），大幅缩减模型体积、榨干硬件带宽，同时保持模型能力基本持平。

DFlash 投机解码：采用块级 masked 并行预测方法，draft 模型一次前向填出一整块 mask 位置，解除串行约束。结合滑动窗口注意力（SWA），使 draft 不再依赖完整前缀，算力从线性增长变为常数级。在 coding 场景中平均接受长度达 6.30，最高 7.14。

系统侧：

TileRT 执行模型：引入常驻内核引擎（Persistent Engine Kernel），抛弃逐算子启动模式，让计算流水线常驻 GPU 内部持续流转，实现数据搬运与计算极致重叠。

异构流水线协作（Warp Specialization）：在 Tile 级别将通信、搬运、张量计算精细拆解，让不同线程束精密协作，将 GPU 演化为持续流动的异构执行系统。

软硬件深度收敛：TileRT 配合 FP4 量化与 DFlash 算法，量身定制编译引擎与计算核，实现微秒级尺度下的联合工程优化。

宙世代

一起剪

相关标签