英特尔“Project Battlematrix”软件更新：优化AI推理性能

英特尔在今年 5 月发布了一款可扩展且易于存取的工作站级至强平台，代号 "Project Battlematrix，" 帮助 AI 开发者解决其所面临的难题。其支持最多八块锐炫 Pro B60 24GB 显卡，实现多卡并行，拥有高达 192GB 的显存，可运行高达 1500 亿参数的中等规模且精度高的 AI 模型。英特尔希望通过简化设计，搭配经过优化的最新推理软件，加速其 GPU 与 AI 战略。

近日英特尔分享了 LLM Scaler container 1.0 版本的最新进展，对于早期客户的支持至关重要，其中包括：

vLLM 优化

针对长输入长度（>4K）的 TPOP 性能优化 - 在 32B KPI 模型上，40K 序列长度的效能提升高达 1.8 倍；在 70B KPI 模型上，40K 序列长度的效能提升高达 4.2 倍。

相比于上次发布，进行了性能优化，8B-32B KPI 模型的输出吞吐量提升约 10%。

逐层在线量化，以减少所需的显存。

vLLM 中的 PP（pipeline parallelism）支持（实验性）。

torch.compile（实验性）。

推测译码（实验性）。

支持嵌入、重新排序模型。

增强的多模态模型支持。

最大长度自动检测。

数据平行支持。

OneCCL 基准测试工具启用

XPU 管理员

GPU 功耗

GPU 固件更新

GPU 诊断

GPU 显存带宽

英特尔计划在今年第三季度末推出 LLM Scaler 的强化版本，并新增额外功能，预计第四季度发布完整的功能集。

宙世代

一起剪

相关标签