Intel三条线优化阿里云通义千问2模型：720亿参数轻松拿捏

快科技 6 月 7 日消息，Intel 官方宣布，旗下数据中心、客户端、边缘 AI 解决方案均已经为阿里云通义千问 2（Qwen2）的全球发布提供支持，已取得 ModelScope、阿里云 PAI、OpenVINO 等诸多创新成果。

为了最大限度地提升诸通义千问 2 等大模型的效率，Intel 进行了全面的软件优化，包括高性能融合算子、平衡精度和速度的先进量化技术等。

Intel 还采用 KV Caching、PagedAttention 机制和张量并行，提高推理效率。

Intel 的硬件也可利用软件框架和工具包进行加速，并获得出色的大模型推理性能，包括 PyTorch 以及 Intel PyTorch 扩展包、OpenVINO 工具包、DeepSpeed、Hugging Face 库、vLLM。

首先看 Intel Gaudi AI 加速器，专为生成式 AI、大模型的高性能加速而设计，最新版的 Gaudi Optimum 可以轻松部署新号的大模型。

Intel 使用 Gaudi 2，对 70 亿参数、720 亿参数的通义千问 2 模型的推理和微调吞吐量进行了基准测试，以下为详细性能指标和测试结果：

70 亿参数通义千问 2 在单颗 Gaudi 2 加速器上的推理

720 亿参数通义千问 2 在八颗 Gaudi 2 加速器上的推理

通义千问 2 FP8 在 Gaudi 2 加速器上的推理

通义千问 2 在 Gaudi 2 加速器上的微调

再看 Intel 至强处理器，作为通用平台具有广泛的可用性，适用于各个规模的数据中心，对于希望快速部署 AI 解决方案、没有专项基础设施企业非常理想。

至强处理器的每个核心都内置了 Intel AMX 高级矩阵扩展，可以处理多样化的 AI 工作负载，并加速 AI 推理。

以上是在五代可扩展至强上运行阿里云 ecs.ebmg8i.48xlarge 实例，通义千问 2 的下一个推理 token 延迟情况。

最后是消费级的 AI PC，可以在本地部署大模型，既然可以使用处理器内置 GPU 核显、NPU AI 引擎，也可以搭配独立的锐炫显卡。

以下展示了 AI PC 运行 15 亿参数的通义千问 2：

酷睿 Ultra 7 165H 上的通义千问 2 推理

酷睿 Ultra 7 165H 上的通义千问 2 下一个 token 延迟

锐炫 A770 16GB 显卡上的通义千问 2 下一个 token 延迟

宙世代