作者 | ZeR0
编辑 | 漠影
上周,全球最大云计算巨头亚马逊云科技自主研发的 Graviton4 处理器全面上市,最初为全新实例 Amazon EC2 R8g 提供支持。
这件事还挺让人感慨,有种 Arm 服务器 CPU 千帆过尽、苦尽甘来的既视感。
服务器 CPU 领域曾经上演风水轮流转,早期由一众精简指令集前辈一统天下,后来被复杂指令集架构 x86 逆袭蚕食。等精简指令集中的后辈 Arm 想闯数据中心赛道时,x86 早已全面霸场。
其实 Arm 早在 2008 年就对这个新兴市场跃跃欲试,结果一晃十年过去,几经试水,愣是没激起零星的水花。
第一张进入数据中心市场的门票,还是云计算产业老大哥亚马逊云科技送来的。
当时亚马逊云科技发了个 " 三连击 ":
1、2015 年 1 月,出其不意地收购以色列芯片设计企业 Annapurna Labs,引起产业密切关注;
2、2017 年,推出首款自研网络芯片 Amazon Nitro,把全球第一款商用的 DPU 芯片送上历史舞台;
3、2018 年,发布首款 Amazon Graviton 处理器,让 Arm 服务器 CPU 在数据中心历史中有了清晰的坐标。
随后亚马逊云科技紧锣密鼓开展了教科书般的多线定制芯片攻关,其他中美大厂也相继跟上自研处理器的风潮。漫长的服务器 CPU 拉锯战,终于从 x86 单方面碾压,变成 Arm 阵营声势渐涨。
Graviton 亦逐渐坐稳全球最广泛使用的 Arm 服务器 CPU,亚马逊云科技更是被视作带领 Arm 生态在数据中心开疆辟土的 " 全村的希望 "。伯恩斯坦去年的一份报告显示,亚马逊云科技占据了全球超过一半的 Arm 服务器 CPU 市场。
▲亚马逊云科技五年发布五款 Graviton 处理器(图源:智东西)
今天,大厂自研芯片屡见不鲜,但成功者寥寥可数。亚马逊云科技用五年写出的这本自研服务器 CPU 参考教材,值得被反复咀嚼。
一、六年死磕 CPU 自研创新,给 Arm 服务器芯片开路
一代开山路,二代奠江湖。
这是亚马逊云科技自研服务器芯片发家的真实写照:2018 年 11 月发布的 Graviton 处理器,发出了云计算大厂自研 CPU 的第一声枪响;一年后,继任者 Graviton2 出场,标志着 Arm 服务器 CPU 正式进入数据中心市场竞争中,与 x86 掰手腕。
Graviton2 集成了 300 亿颗晶体管,核心数量足足是上一代的 4 倍,并翻倍提升了 L1/L2 缓存,总线带宽达到 2TB/s,相比上一代实现了 7 倍的性能提升。与基于 x86 的同类实例相比,基于 Graviton2 的实例性能提高了 40%,每个实例成本降低了 20%。
在低功耗上的出色表现,使亚马逊云科技大举将通用工作负载转移到 Graviton2 上,以节省电力和成本。此后,Graviton 系列的采用率飙升,覆盖的工作负载从起初的 Cache 和 Web 扩展到数据分析、机器学习、高性能计算等。
Graviton 在市场的初步告捷,堪称改变 Arm 命运的节点。
这背后,亚马逊云科技在底层创新上颇费心思:首次不再使用同步多线程技术,而是实现物理核心单线程资源独享,让每个 vCPU 独占 1 个物理核心,使 vCPU 之间更加隔离,不会因争抢资源而导致性能抖动。
从第一代到第二代,Graviton 通过增加核数取得了可观的性能提升,但到第三代,亚马逊云科技需要纳入更多的设计创新。
增加核数、提升主频,是提升性能的两个常见手段。2021 年发布的第三代 Graviton3 没有采用这些思路,核心数不变,主频仅略微提升。因为提高频率对于大规模数据中心来说会比较冒险,可能会带来大量的能耗,而且需要搭配升级的电源及散热配置,最终导致客户的使用成本上升。
Graviton3 做了几项有别于前代的创新:
1、采用 Chiplet 设计,将 7 块硅 die 封装在一起;
2、采用指令级并行方法,提高了单个核心周期可执行的指令数量,使核心能完成更多任务;
3、针对内存带宽和延时敏感型工作负载,增加了 40% 的内存空间,并采用 DDR5 将内存通道带宽提升 50%。
结果,相比上一代,Graviton3 能将应用负载的性能无差别提升 25%,功耗相比 x86 实例降低多达 60%。通过内置机器学习硬件加速单元,这颗处理器还实现了 3 倍的机器学习性能提升,并被 AI 研究人员和企业用于云中的 MLOps。
2022 年推出的 Graviton3E,专门针对浮点和向量指令运算进行了优化,向量计算性能达到 Graviton3 的 2 倍,尤其适用于人工智能 / 机器学习、高性能计算等应用场景。
最新一代 Graviton4 用上了更好的 Neoverse-V2 核心,并将核心数增加到 96 核,每个核心的 L2 缓存提升 1 倍至 2MB,内存带宽提升 75%。
每一代 Graviton 都会较上一代有两位数的性能提升,并且单位算力功耗不断下降。而节能减排对于数据中心的可持续发展极其重要,Twitter、Databricks、F1 方程式赛车、Snap 等知名云客户都使用了基于 Graviton 的服务,并对其降本增效的优势赞誉有加。
据外媒报道,到 2022 年年中,Graviton 约占亚马逊云科技 CPU 实例的 20%,其中大部分是 Graviton2,亚马逊云科技新增虚机实例中约 50% 都是 Graviton 系列。
一些云客户公开背书称,他们通过租用 Graviton 服务节省了 10%~40% 的计算成本。
作为 Graviton 早期用户的大宇无限,用 Graviton2 将大数据作业的成本降低了 20%;大量使用 Graviton2 实例的涂鸦也升级到新一代实例,将 IoT 平台加解密性能提高 50%。
根据市场调研机构 IDC 的数据,2023 年第一季度 Arm 服务器出货量市占率约为 10%。此时 Arm 在服务器市场的生态问题已经初步得到解决。
截至目前,亚马逊云科技在全球六大洲 33 个地区和 100 多个可用区累计部署了超过 200 万张 Graviton 处理器。这些处理器驱动了超过 150 种计算实例,被全球超过 5 万的企业和开发者所使用。
二、唯一实现大规模使用 Arm 架构的云大厂
在服务云客户的过程中,亚马逊云科技团队发现如果希望针对所有可能的工作负载彻底变革计算的性价比,需要彻底重新思考实例,深入底层技术,包括定制芯片。
为什么是基于 Arm 架构设计芯片?
对于亚马逊云科技来说,这既是形势所迫,又是前瞻布局。
首先,Arm 的许可证相对易得,而且设计自由度高,便于亚马逊云科技设计出更符合云业务需求的处理器。
其次,省电长期是数据中心的老大难。考虑到规模效应,每个芯片节省的几瓦特都很重要。而 Arm 已经被移动处理器市场检验过高能效、高算力密度、低成本等优势。
另外前文我们提到过,Graviton 在提升频率上很谨慎,通过更高的指令级并行来补足性能,使其在性价比上更有竞争力。在高 CPU 利用率下,Graviton 中每个 vCPU 独占一个物理核心,不存在争用问题,能保持依然快的速度,其价格优势则会变得明显。
据亚马逊云科技披露,相比采用 Graviton3 的第七代 R7g 实例,基于新一代 Graviton4 处理器的 Amazon EC2 R8g 实例性能提高了 30%,实例大小更大,vCPU 和内存增加多出 3 倍,能为数据库、内存缓存和实时大数据分析等内存密集型工作负载提供更好的性价比。
与 R7g 实例相比,R8g 实例可将 Web 应用程序最高提速 30%,数据库最高提速 40%、大型 Java 应用程序最高提速 45%。
其性能和性价比优势已经得到一些实测验证。
根据 Phoronix 发布的一些基准测试结果,在相同 vCPU 数量时,新 Graviton4 核心大致与英特尔 Sapphire Rapids 性能相当,同时能媲美 AMD 第四代 EPYC,在运行高性能计算、加密、代码编译、光线追踪、数据库、3D 建模等工作负载时,代际进步整体非常出色。
▲经测试,基于 Graviton4 的 R8g 实例性价比超过基于英特尔至强、AMD EPYC 的亚马逊云科技云实例(图源:Phoronix.com)
作为 R8g 实例首发客户之一,Honeycomb 分享称 Graviton4 的吞吐量改进非常明显,相比四年前刚开始使用 Graviton,每 vCPU 吞吐量提高了一倍多。他们准备在 R8g 实例系列正式发布后立即把整个工作负载迁移到 Graviton4 上。
爆款游戏《堡垒之夜》的制作公司 Epic Games 评价说,基于最新 Graviton4 的 EC2 R8g 实例是基于他们测试过的最快的 EC2 实例,在其 " 最具竞争力和对延迟敏的工作负载中表现出色 ",可以充分提高游戏服务器的性能。
对 SAP HANA Cloud 使用 R8g 实例的初步测试结果显示,与基于 Graviton3 的实例相比,R8g 实例的分析性能可提升高达 25%,事务性工作负载性能可提升高达 40%。
▲ R8g 实例不同规格对比
迄今为止,只有亚马逊云科技真正实现了大规模使用 Arm 架构。
为什么是亚马逊云科技?正如亚马逊云科技大中华区解决方案架构总经理代闻在今年中国峰会上所言:" 只有在云计算的环境下,才有机会做这样的从应用到 CPU 的全栈创新。"
自研芯片不是纸上创新,需要工程经验的积累,不仅要追求高性能,而且要足够的稳定可靠和高度安全。
用相同 Arm 微架构不代表就能做出一样性能的 CPU,设计出芯片也不代表就能取得量产和商业上的成功。光是几百个 CPU 核心互连带来的线性度和通信延时问题,就能难倒不少芯片团队,更别提设计 Arm 服务器芯片还要突破生态难关。
亚马逊云科技的研发思路是从对云客户工作负载的深刻理解,逆向穿透到芯片设计。这种以客户为中心的方法能让亚马逊云科技短期内进行调整,以快速适应市场动态。
以 Graviton4 为例,亚马逊云科技首次面向实际应用设计 CPU 架构,该处理器的设计工程中从传统的 MicroBenchmark 基准测试评价体系转向以实际工作负载进行评价的方法。比如,优化 Cassandra 数据库、Groovy 应用、nginx 服务器,所需要的前端和后端 CPU 参数是不一样的。
庞大的客户规模为亚马逊云科技高筑壁垒。其遍布全球的广泛数据中心集群,能承载 Graviton 系列处理器的落地。全球最大云计算业务所形成的规模效应,又能为亚马逊云科技有效摊薄成本。
持续创新的云服务,使亚马逊云科技能够了解到使用最多的应用及其资源消耗模式,以此来挑选对用户来说收益最高的技术点,进行针对性优化,快速改进软件和硬件堆栈甚至是 CPU 设计,研发出相匹配的 vCPU 和硬件核心。
同时,亚马逊的各条托管服务的产品线都使用统一的基础设施,因此 Graviton 创新可以及时应用到所有的托管服务里。用户通过更换计算选项,就能轻松享受到 Graviton 带来的性价比提升。
用户只需关心哪款实例更能满足需求,亚马逊云科技负责将软件的迁移和学习成本打下来。通过将更多的管理服务和 Graviton 做深度集成,从 x86 无缝迁移到 Arm 变得简单快捷。
三、自研芯片如何影响云计算?
今天,自研芯片已经成科技大厂的标准动作,不管是降本增效、构建竞争优势,还是提高可控性、降低第三方芯片企业依赖,都是容易说服下游客户和投资者的好故事。
但在九年前,当亚马逊云科技率先踏出自研芯片之路时,这还是个超前的探索。
回溯云计算发展史,亚马逊云科技在 2006 年发布首款 EC2(弹性云计算)实例定义被视作一个历史时刻。随后越来越多的企业逐渐接受云计算概念,并开始将自家应用迁移到云端。
现在亚马逊云科技可以在云上顺利运行几万个节点的高性能计算集群来训练大模型,能在云上处理高并发的实时流媒体应用,这些在当时都是很难想象的。要知道亚马逊云科技的第一款 EC2 实例,主频只有 1.7GHz,网络带宽 250Mbps,内存不到 2GB,磁盘是只有 160GB 的机械盘。
在云计算业务刚起步的几年,亚马逊云科技要解决很多棘手问题,特别令团队焦虑的是:如果使用定制版 Xen 作为虚拟化管理程序,无论如何耗费大量时间来优化代码,虚拟层始终会占用主机资源,并且 x86 CPU 并不擅长处理网络流量。
直到 2013 年,一家以色列芯片企业 Annapurna Labs 走进亚马逊云科技的视线。经过合作,亚马逊云科技首次将网络处理写到硬件。惊喜的落地表现,让亚马逊云科技盯上了这家出色的合作伙伴:2015 年 1 月,亚马逊云科技宣布收购 Annapurna Labs,自此踏上自研芯片的旅程。
回过头来看,这绝对是亚马逊云科技历史上一笔精明的投资。
就在这一交易的两年后,亚马逊云科技对外宣布 Nitro 虚拟化平台,将安全、管理、监控全部卸载到硬件上,将主机算力近乎 100% 地提供给客户。
从此,云计算走上了业务与基础设施完全物理隔离的路子,底层的虚拟化技术创新和上层的服务器种类发展可以并行展开。
这催生了 EC2 实例的关键拐点:从 2006 年到 2017 年,亚马逊云科技用 11 年从 1 种 EC2 实例做到 70 种;而从 2017 年到 2023 年,EC2 实例骤然爆发式增长,6 年从 70 种发展到 750 种,能为各类负载提供合适的计算实例。
站在 Nitro 成功的基石上,亚马逊云科技发展出网络芯片、服务器 CPU、AI 训练和推理芯片三条产品线:Nitro 网络芯片已经发展到第五代,持续优化网络性能、存储性能和安全加固;Graviton 已经发布四代五款;AI 推理芯片 Inferentia 和 AI 训练芯片 Trainium,通过提供更具性价比的推理和训练实例,让用户有了 GPU 之外的 AI 加速选择。
这使得亚马逊云科技能够保持内部全栈创新的灵活性:从定制的板卡及服务器开始,到深入底层定制芯片,再到横向扩展自研芯片版图,亚马逊云科技逐渐将从芯片、硬件到软件整合协同,在为业务带来更好成本效益和可靠性的同时,构成独属于自己的核心竞争力。
自研芯片与亚马逊云科技自研的存储服务器和高速网络系统联动,使得更多芯片能够高效互连,从而真正明显缩短计算的时间。站在这些创新基础上,亚马逊云科技能够支持云计算中运行最具挑战性的任务之一——人工智能与机器学习。
在近期举行的亚马逊云科技纽约峰会上,亚马逊云科技宣布 96% 的 AI/ML 独角兽已将其业务跑在亚马逊云科技上,2024 福布斯 AI 50 榜单中 90% 的企业选用亚马逊云科技。从 2023 年至今,亚马逊云科技已经正式发布了 326 项生成式 AI 功能,同期机器学习和生成式 AI 服务的正式可用数量超过了其他供应商的两倍。
广泛的用例与深厚的技术积累总是唇齿相依。这些数量惊人的 AI 用例,使得亚马逊有足够的实践案例来为客户提供能取得最佳收益的选择,而广泛的客户反馈又能成为其芯片设计最好的动能。芯片技术的持续迭代,将托举起越来越高性价比的云服务,推动生成式 AI 普惠。
结语:没有哪款芯片,是云计算的唯一解
市场上有大量的芯片选择,云基础设施提供商能在如何将所有这些整合在一起方面发挥价值,从而更好实现从基础设施到云服务的各种创新。
与独立芯片企业不同的是,亚马逊云科技自研芯片的目的不在于参与市场竞争,而在于为其客户提供一个 " 万能商店 ",既提供自研芯片,又提供英特尔 CPU、英伟达 GPU 等市面主流选择,由客户来根据这些芯片实例的配置文件,自行选择最能满足工作负载需求的产品组合。
Graviton 的六年演进,走通了 Arm 服务器 CPU 落地的故事。Arm 为亚马逊云科技提供了灵活定制 CPU 的基础,亚马逊云科技则推动了服务器芯片市场格局的变阵,成为 Arm 在数据中心市场展现成本和性价比优势的最好代言。
只要 Graviton 还有降本增效的空间,亚马逊云科技就可以继续降价让利,把规模与技术的红利回馈给云客户。
登录后才可以发布评论哦
打开小程序可以发布评论哦