近年来,人工智能正在从互联网行业向通信、制造、能源、医疗、政府等各行各业渗透,成为了社会经济活动中最具变革的力量。得益于 5G 技术的发展,AI 在向这些传统行业落地应用的过程中,延伸到了网络的边缘端:通信运营商开始部署 MEC,基于基站中的边缘计算设施为附近设备产生的数据提供 AI 分析,钢铁厂可基于边缘计算平台的支持,实现产品智能质检模型下发和数据回传等等,我们可以看到越来越多的 AI 场景在边缘端落地应用。
据 IDC 预测,到 2023 年将有超过 50% 的新建企业基础设施被部署在边缘,而目前这一比例不到 10%。AI 走到边缘,意味着什么?
IT标准与CT标准的碰撞
AI 走到边缘最直接的挑战是物理环境的变化。AI 服务器对云数据中心的空间、散热等等都有严格的规定,可随着 AI 场景离人们越来越近,边缘端受限的物理空间、复杂的环境都在阻碍着 AI 向边缘的广泛落地。
在这些不同环境的背后,其实是云端数据中心 IT(Information Technology)标准与边缘端 CT(Communication Technology )标准有着本质的区别。
IT 基础设施是规模化的,比如阿里巴巴等互联网数据中心,承载其电商业务的服务器有几十万台,面向单一业务呈现出大规模、集中化的趋势。但是 CT 的数据中心,也就是传统的电信数据中心不是规模化的,因为运营商不太需要把流量汇聚到一起,而是要快速得下发下去,到了 5G,更是如此,所以 CT 的规模化效应是远低于 IT 的。但电信数据中心的多样化远高于 IT,因为电信运营商网络要全覆盖,不同的环境都要适应,比如青藏高原就很少能有互联网数据中心,可电信数据中心就不能少,可以看出 CT 面临的是多元化的需求。
追其根本,是因为 IT 是以计算为核心,CT 是以网络流量为核心的。IT 数据中心以服务器等计算设施为核心,需要更强的计算性能,更大的体积,设备一般深度 80 厘米以上,可达 120 厘米,也因为 IT 设备规模化、集中化,所以环境需求单一。而 CT 以流量为核心,内部扩展要求低,所以设备更加小巧,深度一般在 40 厘米左右,可靠性、适应性的要求高。
客户需求对行业规范的挑战
边缘计算是 IT 和 CT 的融合,要在 CT 的规范中,履行 IT 功能。两个行业标准的融合往往是痛苦的,对于执行主体——厂商来说,尤其如此。
浪潮就接到过某个通信大厂边缘 AI 算力的定制化需求。客户提出要开发一款可以部署在边缘端的最强 AI 算力服务器,让边缘数据中心具备最强的 AI 训练及推理能力。该服务器需部署于 600mm 深的电信机柜内,因此服务器设备体积和内部部件的规划为 19 英寸宽,10.5 英寸(6U)高,46 厘米深,支持 2 个 CPU 芯片和 32 颗 AI 芯片。
浪潮 AI 边缘服务器前视图
AI 芯片是以模组方式而不是传统的芯片方式供货给设备商,而该模组主要应用于 IT 场景,其 140*78mm 的尺寸是按照 IT 的大机柜场景设计的,在 CT 标准的狭小机箱内实现 32 颗 AI 芯片是极具挑战的。浪潮计划采用 8 个 1U 宽,5U 高的 LC 槽位,每槽位 4 颗 AI 芯片互连实现 32 颗 AI 芯片的规格。
受物理空间限制,一块 LC 板上只能放置 2 个 AI 芯片模组,如何在这样的槽位内实现 4 个 AI 模组是达成该产品规格的关键问题。针对该问题,浪潮提出桥接,对扣,Retimer 三种解决方案。由于芯片放置于 AI 模组上,模组同 PCB 连接时本身需要一对连接器,无论哪种方案都会涉及到 AI 芯片的 25Gbps 多次跨越连接器的问题。依据芯片厂家规范,4 颗芯片无法多次跨越连接器,也就无法分布在两块单板上。但客户需求是最强的 AI 算力,若不能实现单槽位 4 个 AI 芯片互联,服务器计算能力也会下降,无法满足客户需求。那就只剩一个选择,突破厂家规范,解决 25Gbps 多次跨连接器的信号完整性问题,实现 4 颗芯片分布在 2 个板上互连。
三种芯片连接方案
跨板互连方案最大的技术挑战是信号完整性设计。因为跨板互连方案不仅会导致信号传输距离大幅增加,而且当 25Gbps 信号多次跨越连接器,会加大 25Gbps 信号之间的串扰,增大高速信号的抖动。由于该应用无法满足芯片原厂对系统链路的设计规则要求,鲜有厂商敢于尝试这项挑战芯片厂商设计规则的研发任务。但为了服务用户、满足客户边缘端极致化的 AI 算力需求,浪潮承接了这项高难度的研发任务。
规范要向应用妥协
要在 1U 的空间实现 4 颗 AI 芯片之间 25Gbps 跨板连接,就要解决信号跨板互连时的信号完整性问题。而造成信号失真的主要因素包括单板材料、传输长度、连接器性能及数量等等。
芯片厂商对芯片板卡上的信号损耗、回损、串扰都会有明确的要求:
l 芯片系统的链路总插损要小于 21dB,其中芯片模组本身会占据 8dB,留给系统的损耗为 13dB。
l 最好的 PCB 板材,信号布线最长仍不能超过 11 英寸;
l 线路信号初始是 900mV,到达接收端眼高会降低至 0mV,需要靠芯片内部的补偿机制回复眼图。传输过程多使用连接器传输距离就要变短,同时链路串扰要增加。每多使用 1 个连接器,就需要把总线长缩短 0.5 英寸。同时链路串扰要小于 7mV,多使用一次连接器,串扰会增加 2mV 左右。因此一般最多支持 2 个连接器。
" 举例来说,信号在 PCB 线路中传输就像冰壶在冰面上滑行,滑行的最长距离取决于冰面本身的光滑程度,如果冰壶在冰面遇到障碍发生颠簸,或者和其他冰壶发生碰撞,就会减小冰壶滑行的最大距离。高速信号经过信道中的连接器,就像冰壶遇到冰面的障碍,会引起信号的抖动和衰减,可能会导致信号无法正确的传输到接收端。" 浪潮研发工程师侯绍铮解释。
" 但由于边缘端空间受限,4 个 AI 模块无法放置于同一块单板上,要跨板连接就不得不在链路中增加连接器,那么如何系统性的减少链路长度、改善链路反射点性能、优化信号间的串扰是架构设计、信号完整性设计能力的重要指标,也是产品成功与否的关键能力。"
通过前期的仿真分析,浪潮选定背扣式,即方案二作为了设计方案。为了保持信号传输路径最短,满足插损要求,信号线的布线路径不能如下图左侧黄线路径设计,必须从连接器内部穿过。而这会导致 25Gbps 信号穿过 25Gbps 信号过孔(红圈)之间发生串扰。浪潮工程师通过合理的布线层设计及创新性使用背钻技术,改变过孔的长度,规避了线到孔的信号串扰。
高速信号过孔情况
依据芯片厂家的设计规则,要求 AI 模组端连接器有效过孔深度小于 50mil,而跨板互连连接器又必须满足 stub 小于 10mil 的要求,两者在本方案中是冲突的。为了解决这一问题浪潮通过对有效孔长及 stub 对信号完整性的影响逐一仿真分析,并根据项目具体链路情况建模,先后仿真分析了 3 种不同布线方案的 24 种布线方式,依据该项目仿真结果同厂家规范允许的链路设计进行了对比,确定最终设计方案。
浪潮 PCBA 板布线方案
尽管项目的设计、器件选型、验证无论是难度还是复杂度都很高,但随着设计方案逐渐明晰,设计中的技术风险被一一攻克,浪潮开发的背扣式 AI 模组跨板互连方案,成功实现 4 个 AI 模组多次跨连接器的 25Gbps 互连,不仅达成了客户的规格需求,也完善了面向边缘端 AI 应用场景的服务器设计规范。
眼图结果
从 AI 到边缘,客户应用打破规范是未来的趋势
2019 年 5G 商用牌照正式下发,5G 刚刚开始,边缘计算也刚刚开始。靠近网络边缘侧的计算是场景化的,是高度应用驱动的,不论是一般性的计算还是边缘 AI,都需要在实际应用中一步步探索。这个过程就是技术上创新的过程。
这种技术创新不单单是要满足更强的计算性能,更低的时延,更宽的带宽,更是一个以实际需求,客户实际应用驱动的不同技术标准和规范碰撞和调整的过程。可以预见,随着 5G 和 AI 等技术的发展,面对客户不同的边缘 AI 场景下海量的计算需求,将会有越来越多的厂商去打破行业规范,为边缘数据中心提供更加多元和创新的解决方案。
登录后才可以发布评论哦
打开小程序可以发布评论哦