联想万全异构智算平台发布！联想陈振宽：聚焦三大领域推出五大技术创新

智东西（公众号：zhidxcom）

作者 | 三北

编辑 | 漠影

智东西 4 月 18 日报道，今日，在上海举办的联想创新科技大会上，联想集团副总裁、联想中国基础设施业务群总经理陈振宽分享了联想在 AI 基础设施领域的战略布局、核心能力与技术创新成果。

▲联想集团副总裁、联想中国基础设施业务群总经理陈振宽

据陈振宽分享，联想 AI 基础设施将聚焦三大领域创新：超强算力、核心算法和液冷创新；面向这三大领域联想已积累了八项核心能力，包括高性能、高可靠性以及液冷技术等。

陈振宽重点分享了针对 AI 2.0 时代的五大创新技术，包括：算力匹配魔方、GPU 内核态虚拟化、联想集合通信算法库、AI 高效断点续训技术、AI 与 HPC 集群超级调度器。

此外，陈振宽在大会上正式发布了联想万全异构智算平台，构建 AI 2.0 时代联想中国基础设施战略框架的核心。联想中国基础设施业务正以 " 一横五纵 " 战略框架，通过构建布局完整、稳定高效的 AI 导向的基础设施，为企业智能化转型打造坚实可靠的智算底座。

一、聚焦三大领域，应对 AI 2.0 时代的算力挑战

过去 40 年，在通用计算领域，联想的 x86 服务器可靠性连续 9 年第一，截至 2023 年底已斩获 536 项性能世界纪录；在科学计算领域，联想 9 次实现中国 HPC TOP 100 NO.1，助力中国在科学计算、仿真、气象等前沿领域的创新突破；联想基于中国特色需求设计了完整 AI 基础设施组合，助力中国客户赢得 AI 1.0 时代的发展。

在 AI 2.0 时代，AI 大模型具备超强的泛化、生成能力，促使人工智能进入更广的应用场景和更深的业务流程中。陈振宽提到，在制造、金融、医疗、交通、能源、政府等各行业中，大模型在产品设计、金融评估、办公辅助、自动驾驶、能源调配等方方面面，颠覆式地改变生产方式，极速促进生产效率。

然而，陈振宽也认为，随着 AI 2.0 时代对于 AI 算力的需求快速增加，算力使用者在使用 AI 基础设施的时候正在面临巨大的挑战，主要包括以下四大方面：

如何选择和匹配算力是第一大挑战。陈振宽指出，目前已经有五种以上主流算法框架和十种以上算子库来支持不同的应用场景。同时，不同类型的 GPU、服务器、存储和网络组成了上百种不同的集群配置。场景、算法和集群之间的选择和验证，不但技术繁杂而且周期长。

其次是如何减少故障中断时间。陈振宽强调，目前千卡集群每月至少有 15 次的故障断点。在常规的断点续训手段下，每次恢复训练需要几个小时，产生的额外费用超过百万元。随着 AI 集群规模从千卡到万卡，故障中断次数及恢复所需时间呈指数级增长。

第三大挑战是如何改善 AI 算力利用率。陈振宽引用行业通用的指标 MFU（模型算力利用率）来作阐述，他指出当前业内 MFU 普遍在 30% 左右，顶尖的集群利用率也只能做到 50%。行业需要解决 GPU 卡利用率，集群通讯效率，AI 故障恢复，算法匹配度等系统性问题。

第四大挑战是如何突破散热瓶颈，降低数据中心 PUE。陈振宽指出，在算力升级带来的能耗飙升的情况下，如何通过先进的散热技术，突破芯片在系统中的散热瓶颈，同时提升能效，降低数据中心 PUE。

为解决上述用户面临的挑战，陈振宽强调，联想 AI 基础设施持续聚焦三大领域，实现科技创新。

首先是超强算力，智能匹配：为用户匹配经过验证优化的最佳算力；其次是核心算法，极致提效：以核心算法挖掘算力潜力，提升计算效率。第三，液冷创新，算力绿化：以先进的液冷技术帮助用户节能增效，并突破芯片散热的瓶颈。

二、公布五大技术创新，首发万全异构智算平台

" 联想在这三大领域里面长期耕耘，积累了八项核心能力。" 陈振宽重点介绍了联想为 AI 2.0 时代带来的五大技术创新：

第一，用户智能匹配算力的算力匹配魔方。基于海量的硬件评测和 AI 算子算法集成工作，联想构建了 AI 场景与算法与集群硬件三者匹配关系的算力魔方知识库，来标识 AI 场景、算法、集群配置这三者的匹配关系。用户只需输入场景和数据，算力魔方即可自动加载最优算法，并调度最佳集群配置。

▲陈振宽介绍联想五大技术创新

第二，逼近 GPU 算力极限的 GPU 内核态虚拟化。联想研究院开发了在 GPU 驱动层的内核态虚拟化算法，新算法可以将虚拟化造成的 GPU 算力损耗降到 5% 以下，极致情况可以降到 1% 以下，大幅提升 GPU 利用率。

第三，提升网络通信效率的联想集合通信算法库。可实现对多类型网络拓扑的实时感知，并以先进算法使数据在拓扑中以最佳路径进行传输。以千卡规模集群为例，采用集成了联想集合通信库的联想异构智算平台做管理调度，可使网络通信效率提升超 10%，并且集群规模越大，效果越显著。

第四，减少 AI 训练中断时间的 AI 高效断点续训技术。联想异构智算平台对大量的 AI 训练故障进行了特征采样，开发了预测 AI 训练故障的 AI 模型，实现 " 用 AI 来预测 AI"。在断点前提前优化备份，由此能将断点续训恢复时间缩减到分钟级，大幅提升了训练效率，以千卡集群为例，每月可节约上百万元算力费用支出，让宝贵的 AI 算力持续可用。

第五，AI 与 HPC 集群超级调度器。这是针对混合集群做资源共享的前沿技术。联想 AI 与 HPC 超级调度器架构于 AI 和 HPC 调度之上，能够切换 AI 和 HPC 的调度沟通，能全局监控任务和动态共享资源，使得用户可以充分利用基础设施的每一分算力。

除了公布以上五大技术创新，陈振宽还在大会上正式发布了 " 联想万全异构智算平台 "。他表示，联想万全异构智算平台是 AI 2.0 时代联想中国基础设施战略框架的核心，它融合了联想的五大技术创新，是 AI 2.0 时代大模型训练和推理的基础设施底座。

结语：异构智算，释放 AI 基础设施新动能

" 在人工智能 1.0 时代，基于全球智慧和本地创新，联想打造了全面的基础设施产品组合，包括计算、存储、网络、边缘和超融合，并在通用计算、科学计算和 AI 计算等不同算力领域获得大量的最佳实践，帮助千行百业的客户取得成功。" 陈振宽说，如今大模型开启的 AI 2.0 时代已经迈着大步朝我们走来，我们需要重塑过去积累的技术，来升级联想基础设施。

对于未来的研究方向，陈振宽透露，联想将挑战超过万卡规模集群的通讯算法优化，挑战秒级的断点续训，深入研究相变式液冷技术，布局模块化液冷数据中心。这些技术帮助 AI 算力朝着更强大、更稳定、更高效和更绿色的方向，高质量发展。

宙世代

智慧云

相关标签