【CNMO 科技消息】6 月 9 日,MiMo × TileRT 联合发布Xiaomi MiMo-V2.5-Pro 的 UltraSpeed 模式。通过模型与系统的极致协同设计(Codesign),在通用 GPU 上首次将万亿参数(1T)模型的生成速度突破1000tokens/s。据悉,UltraSpeed 模式采用限时开放、申请制体验。API 同步上线,定价为 MiMo-V2.5-Pro 的 3 倍,同时提供输出速度约 10 倍的提升(仅支持 API 体验,不支持 TokenPlan)。由于高速推理资源供给有限,本次体验时间仅限2026 年 6 月 9 日至 6 月 23 日 23:59。每个账号每日最多成功进入队列 10 次,单次会话时长上限 30 分钟,空闲超 5 分钟自动释放资源。

在万亿参数尺度上突破 1000tps,带来 AI 应用范式的底层颠覆:
速度转化为智能:在相同等待时间内,模型可并行跑数十条推理路径(Best-of-N/Tree Search),自动验证纠错,提升推理质量。
解放 Coding Agent:极速推理让开发者告别等待,实现颠覆性的代码编写速度与生产效率。
万亿模型进入实时决策闭环:毫秒级响应可接入高频量化交易、瞬时反欺诈风控、智能竞价、实时交互对话,乃至手术辅助、医疗影像分析等生命垂危场景——速度成为与死神赛跑的筹码。

实现 1T 旗舰模型突破 1000tps,是 MiMo 模型与 TileRT 系统团队深度协作、极致 Codesign 的成果。业界追求类似速度时往往选择专用硬件(如 Cerebras 晶圆级集成、Groq 定制芯片),而 MiMo × TileRT 仅在标准通用 GPU 上,通过一个 8 卡节点便实现了这一速度。
模型侧:
FP4 量化:针对 MoE 架构特性,仅对 MoE Expert 进行 FP4 量化(经 QAT 量化感知训练),大幅缩减模型体积、榨干硬件带宽,同时保持模型能力基本持平。
DFlash 投机解码:采用块级 masked 并行预测方法,draft 模型一次前向填出一整块 mask 位置,解除串行约束。结合滑动窗口注意力(SWA),使 draft 不再依赖完整前缀,算力从线性增长变为常数级。在 coding 场景中平均接受长度达 6.30,最高 7.14。
系统侧:
TileRT 执行模型:引入常驻内核引擎(Persistent Engine Kernel),抛弃逐算子启动模式,让计算流水线常驻 GPU 内部持续流转,实现数据搬运与计算极致重叠。
异构流水线协作(Warp Specialization):在 Tile 级别将通信、搬运、张量计算精细拆解,让不同线程束精密协作,将 GPU 演化为持续流动的异构执行系统。
软硬件深度收敛:TileRT 配合 FP4 量化与 DFlash 算法,量身定制编译引擎与计算核,实现微秒级尺度下的联合工程优化。
版权所有,未经许可不得转载


登录后才可以发布评论哦
打开小程序可以发布评论哦