智东西 8小时前
雷军:3倍价格10倍速度!小米万亿参数模型1000 tokens/s狂飙,只需8张GPU
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 李水青

编辑 | 云鹏

智东西 6 月 9 日报道,今日,小米 MiMo 团队与推理系统团队 TileRT 联合宣布,Xiaomi MiMo-V2.5-Pro 的 UltraSpeed 模式已实现万亿参数(1T)旗舰模型输出速度首次突破 1000 tokens/s。

雷军发文宣布 MiMo-V2.5-Pro-UltraSpeed 新进展(图源:新浪微博)

1000 tokens/s 是什么概念?从下面这个例子我们能有直观的感受。以复杂可视化大屏生成任务为例,UltraSpeed 版仅需 13 秒完成,标准版耗时 6 分 15 秒,同等效果下最高提速 28 倍。

提示词:生成一个 AI 服务运营总览大屏,深色科技风(深色底 + 蓝青主色 + 红色异常);顶部 KPI 卡片(在线服务数 / 今日总调用量 / 整体成功率 / 平均 latency),左中实时调用趋势折线图(1min 粒度,3s 刷新)+ 并发用户数 sparkline,右中型分布环形图 + 接口成功率 TOP5 进度条,底部异常告警列表(脉冲红点)+ 资源水位(CPU/GPU/ 内存);点击趋势图展开 60min 明细浮层;纯 HTML+CSS+JS 单文件,Canvas 绘图,KPI 超大数字发光动画。

背后,团队仅用一个标准的 8 卡通用 GPU 节点,便让 1T 模型突破了 1000 tokens/s 的输出速度。涉及技术包含 FP4 量化、DFlash 高效推测解码,搭配 TileRT 定制编译内核,通过软硬件协同充分释放算力等。

TileRT 是一家聚焦 AI 推理系统的独立技术团队,其主营业务是高性能推理引擎。此前 5 月 22 日,该团队与智谱联合进行系统级优化,使得 GLM-5.1 高速版 API 输出速度达 400Tokens/s,创下彼时公开大模型商用 API 推理速度纪录。

今日,Xiaomi MiMo-V2.5-Pro-UltraSpeed 的 API 同步上线。该 API 采用限时体验价,定价为 MiMo-V2.5-Pro 的 3 倍,同时提供约 10 倍的输出速度提升。该模式仅支持 API 体验,暂不支持 Token Plan。

本次体验采取申请制,6 月 9 日至 6 月 23 日限时开放。通过审核的用户可获得两周限时免费的 Chat 体验。

团队已开源 MiMo-V2.5-Pro-FP4-DFlash checkpoint 至 HuggingFace,包含 FP4 量化权重与 DFlash 模型参数。MiMo-V2.5 极致推理支持在后续将推出。

申请入口:

https://platform.xiaomimimo.com/ultraspeed

Chat 体验入口:

https://ultraspeed.xiaomimimo.com

Hugging Face 地址:

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash

一、每秒千 token 推理:10 秒做贪吃蛇、1 分钟复刻 macOS

万亿参数尺度上突破 1000 tps 意味着什么?小米公告中称,这有望带来以下 AI 应用模式的底层改变:

速度转化为智能:在相同等待时间内,模型可并行运行数十条推理路径(Best-of-N/Tree Search),后台自动验证纠错,用速度换取思考深度和推理质量。

解放 Coding Agent 生产力:极速推理下,开发者无需长时间等待代码生成,大幅提升编码效率。

进入实时决策闭环:毫秒级的 " 思考 - 响应 " 循环使万亿模型可以接入高频量化交易信号生成、瞬时反欺诈风控拦截、智能竞价及实时交互对话等对时间极度敏感的场景。

医疗场景的价值:在手术辅助、医疗影像分析等场景中,速度的提升可帮助 AI 更快完成病灶分析与风险预判,为医生争取更多处置时间。

如下图所示,仅需 10 秒,Xiaomi MiMo-V2.5-Pro-UltraSpeed 可生成一个贪吃蛇小游戏。

仅需 1 分钟,Xiaomi MiMo-V2.5-Pro-UltraSpeed 就能复刻一个 macOS 系统。

二、不走专用芯片路线,模型 + 系统双向优化,通用 8 卡 GPU 跑出极速推理

与业界 Cerebras 晶圆级集成或 Groq 纯片上 SRAM 定制芯片等专用硬件路线不同,小米和双方 TileRT 系统团队选择在通用 GPU 上实现这一速度。

在模型侧,他们针对通用硬件的带宽瓶颈,进行了 FP4 量化,大幅缩减模型体积并减少访存开销;同时引入基于块级 Masked 并行预测的高效推测解码 DFlash,大幅提升单次验证的 Token 接受长度。

在系统侧,TileRT 适配算法的动态特性,为全新的量化和推测解码流程量身定制专项优化的编译引擎与计算核。

1、FP4 量化:大幅瘦身不丢精度

在万亿参数尺度上,传统 8 比特甚至 16 比特推理会带来巨大的显存占用和内存带宽压力。团队采用了业界较为通用的 MXFP4 量化方案。

针对 MiMo-V2.5-Pro 的 MoE(Mixture of Experts)架构特性,他们只对 MoE Expert 进行参数 FP4 量化,其他模块保留原有精度。通过 FP4 量化感知训练(QAT),在大幅缩减模型体积、榨干硬件带宽的同时,模型整体能力与原模型基本持平。

FP4 vs FP8 模型对比

2、DFlash 投机解码:单次验证一口气确认多段文本

传统投机解码依赖小型 Draft 模型猜测后续 tokens,再由大模型验证,瓶颈在于 Draft 模型质量与计算开销难以兼得。团队采用了 DFlash 块级 Masked 并行预测方法:Draft 模型在一次前向中同时填出一整块 Mask 位置,解除 Draft 自回归的串行约束。

针对 MiMo-V2.5-Pro 的万亿 MoE 与长上下文场景,团队进行了定制优化:

(1)Draft 模型采用滑动窗口注意力(SWA),与 MiMo-V2 系列自身设计对齐,单次预测算力从随上下文线性增长变为常数级。

(2)训练时 Mask 信号采样下沉到 GPU 本地分片,单步产出数万级独立训练信号,对齐 MiMo-V2 系列模型长上下文能力的同时避免跨设备通信开销。

效果上,其并行预测推测解码在多个 Agent 和 Coding 高价值场景实现了显著的接受长度提升,意味着大模型每次验证都能 " 一口气 " 确认更多内容;此外,他们将 Mask 块大小限制为 8 以降低验证开销、提高并发水平,使得高接受长度直接转换为高推理吞吐。

DFlash 在不同场景下的接受长度

团队在 Coding 场景中平均接受长度达到 6.30,部分样本最高 7.14,每轮验证 8 个 Draft token 中可接受 6-7 个。同时,在语义更发散、不确定性更高的通用对话场景中,当前的接受率仍不高,团队正在持续优化。

3、TileRT 超低延迟推理系统:打通算子壁垒,软硬件协同破千 Token 吞吐

在 1000 tokens/s 的超高频运行状态下,传统推理系统的算子边界成为瓶颈。为了消灭算子边界带来的执行间隙,TileRT 引入了新的执行模型:

(1)常驻内核引擎:摒弃逐算子启动模式,让计算流水线常驻在 GPU 内部持续流转,实现数据搬运与计算的极致重叠。

(2)异构流水线协作:在 Tile 级别将通信、搬运和张量计算进行更精细的物理拆解,不同 Warp(线程束)精密协作。

(3)微秒级软硬件收敛:TileRT 与 MiMo 团队深度协同,针对 FP4 混合量化与 DFlash 投机解码量身定制编译引擎与计算核,让执行压力最终在硬件边界内平稳闭环。

官方表示,1000 tokens/s 的诞生,是高水平系统基础设施与极致算法模型向着彼此深度收敛、共同演化的结果。

结语:10 倍提速,万亿模型的 " 实时梦 " 更近了

小米 MiMo 与 TileRT 在通用 GPU 上实现 1T 模型千 tps 级输出,验证了软硬件协同设计路径的可行性。相比依赖专用芯片的方案,这一思路有望降低实时 AI 推理的硬件门槛,使更多场景能以可接受的成本获得近实时响应能力。

不过,当前高接受率仍主要集中在 Coding 等结构化任务,通用对话场景尚存优化空间。同时,推理资源的紧张与申请制开放也反映出大规模商用仍需时间。1000 tokens/s 的技术突破值得关注,同时距离普惠应用还有一段路要走。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

gpu 雷军 小米 kpi
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论