如果您希望可以时常见面,欢迎标星收藏哦 ~
Enfabrica Corp.,一家备受瞩目的初创公司,正在 AI 领域掀起波澜。去年 9 月,该公司在 B 轮融资中筹集了 1.25 亿美元,并吸引了 AI 巨头英伟达的投资,这算是英伟达的一个竞争对手,因为这家初创公司研发的 AI 网络芯片被业界认为有望对英伟达旗下的 Mellanox 解决方案构成挑战。而就在本月,Enfabrica 再次完成 C 轮融资,获得了包括 Arm、思科、三星等巨头的 1.15 亿美元的资金支持。那么,是什么让 Enfabrica 脱颖而出,吸引了如此多行业巨头的持续青睐?
Enfabrica 是谁?
Enfabrica 这家初创公司成立于 2020 年,由 Sutter Hill Ventures 资助,由首席执行官 Rochan Sankar、首席开发官 Shrijeet Mukherjee 以及其他工程师创立。该公司创立之初的基本理念是数据中心的网络结构必须改变,因为底层计算范式正在发生变化:更加并行、加速、异构和数据移动密集。
图源:Enfabrica
直到 2023 年 3 月,该公司才开始被行业知晓。Enfabrica 也被 The information 评为是 2024 年最有前途的 50 家初创公司。
不过成立仅 4 年,该公司却获得了一众资本的认可:
2023 年 9 月,Enfabrica 宣布融资 1.25 亿美元,B 轮融资由 Atreides Management 领投,现有投资者 Sutter Hill Ventures 参投,新支持者包括 IAG Capital Partners、Liberty Global Ventures、Nvidia Corp.、Valor Equity Partners 和 Alumni Ventures。
2024 年 11 月 19 日,该公司宣布筹集了 1.15 亿美元可观的新现金注入,其 C 轮融资由 Spark Capital 领投,加入此轮融资的新投资者包括 Arm、Cisco Investments、Maverick Silicon、Samsung Catalyst Fund 和 VentureTech Alliance。去年参与 B 轮融资的现有投资者 Atreides Management、Sutter Hill Ventures、Alumni Ventures、IAG Capital 和 Liberty Global Ventures 也参与了此次融资。
随着 OpenAI 的 ChatGPT 等大语言模型的兴起,对生成式 AI 应用以及现在的 AI 代理产生了巨大的需求,这家初创公司适时推出了其 AI 网络互连芯片—— ACF-S(Accelerated Compute Fabric-Switch,加速计算结构交换机)。ACF 解决方案是从头开始发明和开发的,旨在解决 GPU 网络痛点以及内存和存储扩展问题等加速计算的扩展挑战。包括英伟达在内的知名投资机构对 Enfabrica 的大力支持,进一步证明了其技术的商业可行性和潜在价值。
网络连接,需要改变了
在现代 AI 服务器和数据中心中,存在多种连接技术,可能很多人会有所迷糊,在此作简单科普。通常我们所说的 PCIe、英伟达的 NVLink、AMD 的 Fabric 这些主要是用于服务器与服务器之间的纵向连接。而网络技术则是指用于多个服务器横向连接,例如 AI 训练集群中的多节点通信。
AI 训练过程由频繁的计算和通信阶段交替组成,其中下一阶段的计算需要等待通信阶段在所有 GPU 之间完成后才能启动。通信阶段的尾部延迟(tail latency,即最后一条消息到达的时间)成为整个系统性能的关键指标,因为它决定了所有 GPU 是否能同步进入下一阶段。在这一过程中,网络的重要性愈发凸显,网络通信需要能够传输更多的数据。若网络性能不足,这些高成本的计算集群将无法被充分利用。而且,连接这些计算资源的网络必须具备极高的效率和成本效益。
在高性能计算(HPC)网络中,Infiniband、OmniPath、Slingshot 是几个横向连接技术方案。
其中Infiniband 主要由 NVIDIA(通过其 Mellanox 子公司)主导,是 HPC 领域最成熟的网络技术之一。它以极低的延迟和高带宽著称,支持远程直接内存访问(RDMA),广泛应用于超级计算和 AI 训练。该技术成本较高,部署和维护复杂性较高。目前,Nvidia 是 InfiniBand 芯片的最大卖家。例如,英伟达的 ConnectX-8 InfiniBand SuperNIC 支持高达 800Gb/s 的 InfiniBand 和以太网网络连接,能够运行数十万台 GPU。
英伟达的 ConnectX-8 InfiniBand SuperNIC
(图源:英伟达)
OmniPath 是由英特尔推出的一种高性能网络技术,旨在与 Infiniband 竞争,虽然英特尔于 2019 年停止直接开发,但 Cornelis Networks 接管了该技术,继续发展。相比 Infiniband,OmniPath 的硬件和部署成本更低,适合中型 HPC 集群。但 OmniPath 的市场份额有限,生态系统不如 Infiniband 成熟,技术更新速度较慢。
Slingshot 是由 Hewlett Packard Enterprise(HPE)旗下的 Cray 开发的高性能网络技术。其特色在于与以太网的兼容性,适合混合 HPC 和企业工作负载的场景。不过,Slingshot 尚未在市场中被大规模应用,市场接受度和应用案例还有待观察。
不过与 HPC 网络相比较,AI 对网络需求提出了更高的要求,已从最初的高性能计算要求转向构建可在加速计算集群之间提供一致、可靠、高带宽通信的系统,这些集群现在有 10,000 个节点或更大,并且需要以类似云的服务的形式提供。
为了打破 InfiniBand 的垄断,以太网正逐渐成为有力竞争者。以太网虽起源于通用网络技术,但其广泛的生态系统、低成本和逐步增强的性能,使其在 HPC 和 AI 横向连接技术中崭露头角。以太网的优势在于生态成熟和成本效益,但在延迟和专用功能上仍需努力。因而去年,超级以太网联盟 ( UEC ) 成立,该联盟的宗旨是 " 新的时代需要新的网络 ",UEC 对新网络的定义是:性能堪比超级计算互连、像以太网一样无处不在且经济高效、与云数据中心一样可扩展。UEC 的创始成员包括 AMD、Arista Networks、Broadcom、思科系统、Atos 的 Eviden 分拆公司、惠普企业、英特尔、Meta Platforms 和微软。值得一提的是,后来英伟达也加入了这一联盟。
来源:超级以太网联盟 ( UEC )
所有这些网络技术往往依赖于专用的网络接口卡(NIC)和交换机。当前,AI 服务器的网络组件如 NICs、PCIe 交换机和 Rail Switches,大都像 " 烟囱式 "(stovepipes)结构一样单独存在(如下图所示),彼此之间缺乏统一协调,网络带宽不足,缺乏可靠的容错机制,难以应对 AI 训练和推理过程中庞大的数据流量。
这样的结构特点还带来了诸多痛点:如在 GPU 之间传输数据时容易产生拥堵,数据在网络中需要经过多个设备跳转,增加了延迟;网络负载分布不均,可能导致 " 入汇拥塞 "(incast),即大量数据同时到达某一点时引发的瓶颈;此外,碎片化和低效率的网络设计导致 AI 集群的总成本(TCO)显著增加,因为存在 GPU 和计算资源闲置的情况,造成资源浪费与带宽利用率低,GPU 间的链路如果发生故障,会导致整个任务停滞,影响系统的可靠性和稳定性。
行业变革日新月异,现在 GPU 已经取代 CPU 成为 AI 数据中心的核心处理资源,GPU 和加速器计算基础设施的资本支出在全球所有顶级云提供商中占据传统计算支出的主导地位——这一切都归功于生成式 AI 的市场潜力。但值得注意的是,目前部署在这些系统中的网络芯片,包括连接加速计算的 PCIe 交换机、NIC 网络接口控制器和机架顶交换机,依然是为传统 x86 计算架构时代设计的产品。这些设备上 I/O 带宽的滞后已经成为 AI 扩展的瓶颈。
网络芯片,也需要与时俱进了。本文我们所描述的 Enfabrica 公司,他们开发的 ACF-S 技术有望在这一领域占据一席之地。
取代多种网络芯片,
ACF-S 芯片要 " 革互连的命 "
Enfabrica 的 ACF-S 是一种服务器结构芯片,它不使用行业标准的 PCIe 交换机和具有 RDMA 的以太网网络接口卡 ( NIC ) ,而是将 CXL/PCIe 交换功能和 RNIC(远程网络接口卡)功能集成到单一设备中,也就是不再需要 PCIe、NIC(网络接口控制器)或独立的 CPU 连接 DRAM,而且这种方法消除了对 CXL 高级功能的依赖。这种架构和思路与超级以太网(UEC)白皮书所倡导的所有方面都需要加速器、NIC 和交换机结构之间的协调不谋而合。
Enfabrica 首席执行官 Rochan Sankar 表示:" 这不是 CXL 架构,不是以太网交换机,也不是 DPU ——它可以做所有这些事情。这是一类不同的产品,可以解决不同类别的问题。"
据了解,Enfabrica 的 ACF-S 采用 100% 基于标准的硬件和软件接口,包括原生多端口 800 千兆以太网网络和高基数 PCIe Gen5 和 CXL 2.0+ 接口。该结构可直接桥接和互连 GPU、CPU、加速器、内存和网络等各种设备,在这些设备之间提供可扩展、流式、每秒多 TB 的数据传输。它将消除对专用网络互连和传统机架顶部通信硬件的需求,充当通用数据移动器,克服现有数据中心的 I/O 限制。
也就是说,ACF-S 无需改变设备驱动程序之上的物理接口、协议或软件层,即可在单个硅片中实现异构计算和内存资源之间的多 TB 交换和桥接,同时大幅减少当今 AI 集群中由机架顶部网络交换机、RDMA-over-Ethernet NIC、Infiniband HCA、PCIe/CXL 交换机和连接 CPU 的 DRAM 所消耗的设备数量、I/O 延迟跳跃和设备功率。
通过结合独特的 CXL 内存桥接功能,Enfabrica 的 ACF-S 成为业内首款可为任何加速器提供无头内存扩展的数据中心硅产品,使单个 GPU 机架能够直接、低延迟、无争用地访问本地 CXL DDR5 DRAM,其内存容量是 GPU 原生高带宽内存 ( HBM ) 的 50 倍以上。
成本也是这家初创公司的卖点之一。这是由于节省了购买 NIC 和 PCIe 交换机的费用。据该公司称,Enfabrica 的旗舰 ACF 交换机硅片使客户能够在相同性能点上将大型语言模型 ( LLM ) 推理的 GPU 计算成本降低约 50%,将深度学习推荐模型 ( DLRM ) 推理的 GPU 计算成本降低 75%。
3.2Tbps 超高速,实现 50 多万 GPU 互连
2024 年 11 月 19 日,在超级计算 2024 ( SC24 ) 大会上,Enfabrica 宣布其突破性的 3.2 太比特 / 秒 ( Tbps ) ACF SuperNIC 芯片 "Millennium" 及其相应的试点系统 Thames 全面上市。Millennium 为 GPU 服务器提供多端口 800 千兆以太网连接,带宽和多路径弹性是业内任何其他 GPU 连接网络接口控制器 ( NIC ) 产品的四倍。Enfabrica 芯片将于 2025 年第一季度开始批量供货。
Millennium 具有高基数、高带宽和并发 PCIe/ 以太网多路径和数据移动功能,可以独特地在每个服务器系统中纵向和横向扩展四到八个最新一代 GPU,为 AI 集群带来前所未有的性能、规模和弹性。Millennium 还引入了软件定义的 RDMA 网络,将传输堆栈控制权交给数据中心运营商,而不是 NIC 供应商的固件,而不会影响线速网络性能。
凭借单个 ACF-S 芯片上的 800、400 和 100 千兆以太网接口以及 32 个网络端口和 160 个 PCIe 通道的高基数,首次可以使用更高效的两层网络设计构建超过 50 万个 GPU 的 AI 集群,从而实现集群中所有 GPU 的最高横向扩展吞吐量和最低的端到端延迟。
2 层 500K+ GPU 集群设计(跨所有网络层的完整横截面带宽)(图源:Enfabrica)
Enfabrica 相信其互联技术将成为未来 GPU 计算网络的核心。Constellation Research Inc. 副总裁兼首席分析师 Andy Thurai 表示,Enfabrica 可以为 AI 网络领域提供一个有趣的替代方案,目前该领域由 Nvidia 及其 Mellanox 解决方案主导。他解释说,Enfabrica 的一个显着差异是它能够在 GPU 和 CPU 之间高速移动数据。
也就说,不仅是 GPU,Enfabrica 还有望改变 CPU 的竞争力。Thurai 表示:" 这可以让更多公司探索使用 CPU 而不是 GPU 来开发人工智能,因为 GPU 目前供应不足。Enfabrica 的独特优势在于它使用现有的接口、协议和软件堆栈,因此无需重新连接基础设施。"
结语
随着 AI 模型训练对效率和成本效益的要求不断提高,网络的重要性愈发凸显。据 650 Group 预测,到 2027 年,数据中心在计算、存储和网络芯片高性能 I/O 领域的硅片支出将翻倍,超过 200 亿美元。这无疑是一块极具吸引力的市场蛋糕。
英伟达等公司对 Enfabrica 初创公司的投资,不仅彰显了对其技术创新的高度认可,更是着眼于未来 AI 生态战略布局的一步棋。要突破当前人工智能领域面临的网络 I/O 瓶颈,离不开应用人工智能、GPU 计算和高性能网络领域的专家之间的创造性工程设计和紧密协作。只有摒弃孤立竞争,形成合力,才能共同推动技术进步,为行业注入新动力。
登录后才可以发布评论哦
打开小程序可以发布评论哦