证券之星 03-10
大模型狂奔,网络掉队?两会热议:AI算力的下一个瓶颈在“连接”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

随着 2026 年全国两会召开,智能经济成为代表委员热议的焦点。政府工作报告明确提出要 " 打造智能经济新形态 ",并将 " 实施超大规模智算集群 " 列为新型基础设施建设重点方向。

毋庸置疑,这一战略部署背后,隐含着对人工智能基础设施更高层次的需求。在业界持续聚焦芯片算力提升的同时,一个更为基础性的技术瓶颈也浮出水面——网络的承载能力。

当前,人工智能模型参数已进入万亿级规模,训练任务从单卡向万卡甚至十万卡集群演进,带来的是对网络通信能力的极限挑战。大模型训练要求在微秒级时间内完成海量参数同步,对网络的延迟、丢包率和可扩展性提出了前所未有的要求:网络延迟过高将直接导致算力闲置;数据丢包则可能导致训练任务中断,造成巨大的资源浪费。

腾讯光网络架构师付思东指出,从 2016 年的 Pascal 架构到 2024 年的 Blackwell 架构,AI 算力在八年内实现约 1000 倍增长,而网络带宽同期仅提升 4 倍。这种 " 算力如火箭攀升,网络如步行前进 " 的失衡状态,正在倒逼产业界重新审视网络技术的战略价值。

在此背景下,如何实现 " 以网强算 " 成为产业界亟待破解的命题。

近期,NVIDIA 发布的 2026 财年报告为业内提供了参考样本。数据显示,NVIDIA 网络业务迎来空前爆发——全年收入突破 310 亿美元,相比 2021 财年收购迈络思 ( Mellanox ) 时增长超 10 倍。单第四季度,网络业务营收达 110 亿美元,同比增长 263%。

这一增长背后,是 InfiniBand ( IB ) 技术在超大规模 AI 集群中的深度渗透。IB 网络以其独特的基于信用的流控机制,可以在传输前确保接收端资源充足,从根本上杜绝拥塞与丢包,交换延迟低至 100 纳秒,是目前高性能计算领域公认的标杆方案。

但对国产智算集群来说,其核心技术由 NVIDIA 长期垄断,供应链高度集中。在信创战略持续推进下,国产 IB 仍然存在明显的市场空白。

相较之下,RoCE 方案试图在通用以太网架构上实现 IB 类似的无损传输能力,成本优势较强。然而,深入分析当前主流 RoCE 方案可知,尽管交换机品牌国产化进展不慢,但其核心交换芯片仍主要依赖博通 ( Broadcom ) ,网卡芯片则由迈络思 ( Mellanox ) 主导。

在 200G 及以上高速互联领域,RoCE 相关的 I/O 环节技术能力尚处于追赶阶段 ( 目前仅能支持 100G 级别 ) ,与 IB 网络主流的 400G 方案存在代际差距,很难满足大算力集群互联需求。

这也意味着,AIDC 高端互联领域核心技术仍未脱离海外厂商掌控,想要高位对接超大规模智算集群需求,必须直面 IB 技术路线国产化难关。

"NV 网络业务爆发印证了一个基本事实:在超大规模智算集群时代,高性能网络已经拿到主角剧本 "。有业内人士认为,IB 技术路线因其原生一体化设计和对极致性能的追求,成为全球头部 AI 集群的高配选择。

他指出,在国产智算基础设施发展初期,RoCE 不啻于一种务实方案,但在大集群网络互联中,仅依靠嫁接于通用以太网的技术路径,很难从根本上突破性能天花板。

因此,推动 IB 网络自主化建设,已不仅仅是一项技术命题,更是 AI 大算力时代的战略任务。其意义不局限于现有国产技术体系的局部优化,而是真正锚定高性能网络这一核心短板,建立起兼顾自主可控和高效可用的技术底座,打造真正具备国际竞争力的智能算力新基建。

两会期间对超大规模智算集群的政策引导,既是对人工智能产业发展的强力推动,也向产业链上下游递出一份更严格的考卷。在 AI 算力竞争日益白热化当下,网络连接能力正成为决定集群效能的核心变量之一。打通智算集群的 " 任督二脉 ",亟需在核心网络技术上实现从外部依赖到自立自强的跃迁。这条路可能艰难且漫长,但却是叩响 AI 时代大门的关键一步。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai nvidia 芯片 智能经济 基础设施
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论