从云端到 PC,AMD 打造全方位智能生态。
2024 全球 AI 芯片峰会(GACS 2024)于 9 月 6 日 ~7 日在北京举行,大会由智一科技旗下芯片行业媒体芯东西和硬科技知识分享社区智猩猩发起举办。在大会第一天的主会场开幕式上,AMD 人工智能事业部高级总监王宏强以《推进大模型从云到端部署,打造变革性未来》为题发表演讲。
AMD 在端到端的 AI 基础设施领域打造了全面的产品线,覆盖从数据中心服务器、AI PC 到智能嵌入式和边缘设备,并提供领先的 AI 开源软件及开放的生态系统。AMD 基于先进 ZEN4 架构设计的 CPU 处理器平台、基于 CDNA3 架构面向 AI 推理 & 训练的 MI 系列加速器,已被微软等巨头采用。
据 AMD 人工智能事业部高级总监王宏强分享,AMD 还在推动数据中心高性能网络基础设施(UALink,Ultra Ethernet),这对 AI 网络结构需要支持快速切换和极低延迟、扩展 AI 数据中心性能至关重要。AMD 即将发布下一代高性能 AI PC 芯片,其基于第二代 XDNA 架构的 Ryzen AI NPU,可提供 50TOPS 算力,将能效比提高至通用架构的 35 倍。
在 AI PC 对隐私、安全和数据自主性的推动下,重要的 AI 工作负载开始部署在 PC 上。作为全球领先的 AI 基础设施提供商之一,AMD 愿意携手广大客户与开发者共建变革性未来。
目前,为了推进 AI 从云到端部署,AMD 重点主要集中在提供丰富多样的高性能和自适应硬件和软件解决方案组合、建设开放式生态系统、将复杂的工作负载简化为引人入胜的用户体验这三大关键领域。
▲ AMD 人工智能事业部高级总监王宏强
以下为王宏强演讲内容的完整整理:
自去年以来,人工智能(AI)领域实现了显著的发展,尤其是在大模型和生成式 AI 方面。AMD 在这些技术产品方面逐步推出了从硬件平台到软件,从端到端的解决方案。
AMD 拥有非常全的产品线,从数据中心服务器,到边缘侧的 Edge&Embedded,还有 AI PC,都有非常全面的硬件 AI 平台。
AMD 公司真正做到针对不同数据中心业务需求进行优化,以满足各种工作负载。这包括使用CPU 处理器进行轻量级 AI 推理,或者利用 MI 加速器处理大规模任务,尤其是当前生成式 AI 大模型的推理和训练。
同时,我们知道在数据中心,除了推理和训练,特别是在训练里面,我们需要有 Scaling Out(横向扩展)和 Scaling Up(纵向扩展)。在同一个节点里面有多卡互联,在不同节点之间则是需要有 Scaling Out 扩大整个处理的能力。
针对这方面,我们集中发展开放的高速互联,如 UALink 和 Ultra Ethernet,我们在计算和跨节点互联方面都提供了重要的技术支持。AI 网络有一个很重要的需求,就是需要一个极低的延时和响应的时间,AMD 找的是开放的 UALink 和 Ultra Ethemet,更好地与业界其他客户一起构建我们整个的计算加速平台。
01.
加速器轻松处理上万亿参数模型
AMD 的 EPYC 系列新一代 CPU 拥有多达 192 个核心和 384 个线程,这是基于我们最新的ZEN5 架构设计的,它相比上一代也有非常大的性能提升,不仅是从 Instruction Bandwidth(指令带宽),还有数据的 Bandwidch(带宽),比如 L2 到 L1 的,还有 L1 到浮点数据的带宽都有提升 2 倍。
同时,我们的 AVX-512 技术是完整的,它在数据的 buffer(缓冲区)也有带宽,从而能够更有效地支持 AI 推理服务。
自去年 12 月以来,我们在数据中心也推出了一系列新的 MI 加速器,这些产品已经被包括微软在内的大型互联网公司采用。
我们加速的板卡已经被服务器制造商,包括 OEM(原始设备制造商)和 ODM(原始设计制造商)集成到他们的服务器中。
对于用户而言,只要购买了这些服务器,就可以获得内置我们的 CPU 和 MI 加速器的系统,并用于执行 AI 推理和训练任务。
目前,在大模型生成式 AI 领域,ADM 也是一直在提升我们的架构。我们原来是 Llama3 的架构,对此我们也将继续演进。
在存储容量和存储带宽方面,我们也取得了快速的发展。预计到今年年底,大家将会看到一些相关的更新产品的发布。
我们将更有效地支持当前在大模型的推理,例如 Llama 和 GPT等。让所有的这些模型都能轻松地在我们的加速器上运行。更为重要的是,我们的加速器甚至能够处理具有上万亿参数的模型。
02.
GPU 设计完全开源,
人人都可对代码进行修改
在 GPU 软件设计上,我们有 ROCm,它是一个开源的加速器软件。我们不仅设计是开源的,而且整个架构也是模块化的,对用户完全开放、开源。
用户和社区成员都可以访问这些开源代码,你甚至可以对代码进行修改。我们鼓励更多地去把 AI 整个社区的贡献集成在我们整个 ROCm 平台里面。
我们针对当下最热的生成式 AI 也做了很多创新,比如像对 RADEON 这个开源推理引擎的支持。此外,我们还积极支持了像 SGlang 这样的新型开源推理引擎。
SGlang 和 RADEON 之间存在一些差异,特别是在调度上。与 CUDA 这个相对闭源的环境不同,我们支持不同的开源推理引擎,使用户、社区,整个生态处在一个环境里面。
为了支持生成式 AI 的大模型,我们对 FlashAttention-2 和 FlashAttention-3 进行了优化,包括对 FP8 这些算子的支持。这些都是用在推理里面非常典型的数据类型,在训练里面,我们也能够支持 BF16 的数据类型。
除了提供算子支持,我们还支持通信,包括 RCCL 优化和虚拟化技术的支持等。
03.
AI 发展不仅在于硬件,
软件和基础设施投入同样重要
我们坚持在 AI 的软件及基础设施上的投入。除了加大自己内部的投入,我们还会收购一些业界比较有名的公司。
最近我们收购了 SILO.ai,这是一家拥有众多杰出 AI 案例的公司。
通过收购 SILO.ai,我们不仅能够进一步提供 AI 优化技术,还获得了他们在 AI 开源领域积累的丰富专业知识。
我们也收购了 ZT Systems。作为行业领先的数据中心,ZT Systems 专注于 AI 基础设施。
我们不仅从软件、硬件平台,还从整个机框、机架这一整套来提供 AI 加速的能力。
开源加速的发展速度在不断加快,每天都有新的开源算子和框架被推出。
AMD 本着开源开放的战略,积极在开源社区进行部署和推广新模型。我们借助整个生态系统的力量,迅速推动 AI 技术的发展,这与相对封闭的 CUDA 环境完全不一样。
我们与 HuggingFace 的合作也是非常紧密的。HuggingFace 上有 70 多万个模型,每天我们都会进行一些测试,保证它的这些模型都是可以直接运行在我们加速器的平台上,包括在数据中心里面,还有在个人笔记本 Ryzen 平台上。
我们还与 OpenAI Triton 合作,它提供了更高层次的 AI 语言抽象,使我们能够在更高层次的语言抽象上更容易地实现功能。此外,我们很早就开始支持像 PyTorch 这样的推理框架。
04.
XDNA2 架构下的 NPU,
算力与存储提升
刚刚介绍了我们在数据中心的投入,实际上我们在 AI PC 的投入也非常大。
我们一直在 RyzenAI 平台引领 AI PC。
现在越来越多的应用可以跑在个人笔记本电脑里面,比如一些实时的协同都可以在个人电脑里面跑一些大模型,通过这些大模型作为基座,去开发各种应用,这就使得各种应用真的可以落地到端侧。
我们 AMD 要发布的下一代高性能 AI PC 芯片,它也是基于我们 Zen5 CPU 的架构,加上了第 2 代 XDNA,Ryzen 是升级到 3.5 的版本,能够提供 50TOPS 的算力。
在 AI PC 领域,用户越来越重视隐私保护、数据安全和数据自主性。随着重要的 AI 工作流程逐步在个人电脑端部署,对专用处理器的需求也随之增加。
在 PC 部署上,大家对 PC 机的耗电需求非常大,因此非常需要 NPU 的处理器。NPU 在性能功耗比具有非常大的优势,相比通用的处理器,它能够扩大 35 倍以上的能效,所以我们在 AI PC 里面有集成这个 NPU。
NPU 是基于我们 XDNA2 最新的架构,它的底层是 AI 处理引擎,相比之前,从算力,包括存储都有一点几倍的提升。
我们在数据类型上也进行了很多创新,例如对 Block FP16 的支持。与第一代 XDNA 相比,我们实现了更高的能效比,计算能力提升了 5 倍,功耗效率也提高了 2 倍。
关于关键数据类型的创新,就是块状浮点的支持。块状浮点的优势在于它结合了 8-bit 数据类型的高性能和 16-bit 精度的优点,从而在数据位宽、精度以及存储需求之间实现了理想的平衡。它在性能上与 8-bit 相近,同时在模型大小上仅需 9-bit 表征。此外,它在精度上非常接近 16-bit,能够达到与 16-bit 数据类型几乎相同的 99.9% 的准确度。
另外一个在 AI PC 上的应用就是 RAG 推荐系统。它包括前处理步骤,其中一些处理在 CPU 上执行,而核心计算则在 NPU,这种设计使得整个系统能够实时处理 RAG 推荐系统的任务。
刚刚介绍的这些功能都是通过 AMD 的 Ryzen 软件达到的,RyzenAI 的软件架构包括从浮点模型开始,通过内置的量化器进行优化,最后通过 ONNX 的表示执行到 NPU 里面。
我们也支持通用架构,并正在开发Unified AI software stack(软件栈)。这一软件栈能够智能地识别系统中的 CPU、NPU 和 iGPU 这三种加速引擎,并自动分配最适合的引擎来处理相应的工作流程,从而实现最优性能。
我将很快分享一下 AMD 基于 Edge&Embedded,在嵌入式和边缘的应用。
在 AMD,这个平台是真正的一个异构计算平台,它不仅包括可编程逻辑,也包括 XDNA 和 ARM CPU。它能够处理 AI 中的关键模块,包括前处理,如 LiDAR 数据处理,这些都可以由可编程模块来执行。
AI 的 Inference 可以在 XDNA 架构中进行,而一些后处理、决策和 Dedision Making 则可以在后处理器,如 CPU 里面去进行。
我介绍一个 Demo,它是基于 AI 的立体摄像头实现的,没有用雷达,也没有用地图,可以看到只是用了立体摄像头做 AI 相应的处理,就能实现自动驾驶的功能。
最后我总结一下我们的优势,我们能够定义新的 AI 时代端到端的基础设施,我们整个产品的线路是最全的,从数据中心、从边缘,到端侧,都有一整套的硬件。
我们在 AI 软件上一直有非常大的投入,包括对软件的支持,我们一直走的是开源开放的生态,让所有的 AI 开发者、客户、用户,包括整个社区,大家都可以在我们开放的软件平台上贡献,去推进整个 AI 软件的快速发展,去支持在不同平台上的各种新的模型。
我们正处在一个 AI 推动的社会变革中,AI 的影响已经深入到我们的日常生活之中。AMD 会继续推进大模型,从云边端的部署,以真正帮助到用户,基于 AI 技术去打造一个更加方便、更加便捷的生活。
登录后才可以发布评论哦
打开小程序可以发布评论哦