超能网 前天
英特尔“Project Battlematrix”软件更新:优化AI推理性能
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

英特尔在今年 5 月发布了一款可扩展且易于存取的工作站级至强平台,代号 "Project Battlematrix," 帮助 AI 开发者解决其所面临的难题。其支持最多八块锐炫 Pro B60 24GB 显卡,实现多卡并行,拥有高达 192GB 的显存,可运行高达 1500 亿参数的中等规模且精度高的 AI 模型。英特尔希望通过简化设计,搭配经过优化的最新推理软件,加速其 GPU 与 AI 战略。

近日英特尔分享了 LLM Scaler container 1.0 版本的最新进展,对于早期客户的支持至关重要,其中包括:

vLLM 优化

针对长输入长度(>4K)的 TPOP 性能优化 - 在 32B KPI 模型上,40K 序列长度的效能提升高达 1.8 倍;在 70B KPI 模型上,40K 序列长度的效能提升高达 4.2 倍。

相比于上次发布,进行了性能优化,8B-32B KPI 模型的输出吞吐量提升约 10%。

逐层在线量化,以减少所需的显存。

vLLM 中的 PP(pipeline parallelism)支持(实验性)。

torch.compile(实验性)。

推测译码(实验性)。

支持嵌入、重新排序模型。

增强的多模态模型支持。

最大长度自动检测。

数据平行支持。

OneCCL 基准测试工具启用

XPU 管理员

GPU 功耗

GPU 固件更新

GPU 诊断

GPU 显存带宽

英特尔计划在今年第三季度末推出 LLM Scaler 的强化版本,并新增额外功能,预计第四季度发布完整的功能集。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

英特尔 ai gpu kpi 吞吐量
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论