大模型狂奔，网络掉队？两会热议：AI算力的下一个瓶颈在“连接”

随着 2026 年全国两会召开，智能经济成为代表委员热议的焦点。政府工作报告明确提出要 " 打造智能经济新形态 "，并将 " 实施超大规模智算集群 " 列为新型基础设施建设重点方向。

毋庸置疑，这一战略部署背后，隐含着对人工智能基础设施更高层次的需求。在业界持续聚焦芯片算力提升的同时，一个更为基础性的技术瓶颈也浮出水面——网络的承载能力。

当前，人工智能模型参数已进入万亿级规模，训练任务从单卡向万卡甚至十万卡集群演进，带来的是对网络通信能力的极限挑战。大模型训练要求在微秒级时间内完成海量参数同步，对网络的延迟、丢包率和可扩展性提出了前所未有的要求：网络延迟过高将直接导致算力闲置；数据丢包则可能导致训练任务中断，造成巨大的资源浪费。

腾讯光网络架构师付思东指出，从 2016 年的 Pascal 架构到 2024 年的 Blackwell 架构，AI 算力在八年内实现约 1000 倍增长，而网络带宽同期仅提升 4 倍。这种 " 算力如火箭攀升，网络如步行前进 " 的失衡状态，正在倒逼产业界重新审视网络技术的战略价值。

在此背景下，如何实现 " 以网强算 " 成为产业界亟待破解的命题。

近期，NVIDIA 发布的 2026 财年报告为业内提供了参考样本。数据显示，NVIDIA 网络业务迎来空前爆发——全年收入突破 310 亿美元，相比 2021 财年收购迈络思 ( Mellanox ) 时增长超 10 倍。单第四季度，网络业务营收达 110 亿美元，同比增长 263%。

这一增长背后，是 InfiniBand ( IB ) 技术在超大规模 AI 集群中的深度渗透。IB 网络以其独特的基于信用的流控机制，可以在传输前确保接收端资源充足，从根本上杜绝拥塞与丢包，交换延迟低至 100 纳秒，是目前高性能计算领域公认的标杆方案。

但对国产智算集群来说，其核心技术由 NVIDIA 长期垄断，供应链高度集中。在信创战略持续推进下，国产 IB 仍然存在明显的市场空白。

相较之下，RoCE 方案试图在通用以太网架构上实现 IB 类似的无损传输能力，成本优势较强。然而，深入分析当前主流 RoCE 方案可知，尽管交换机品牌国产化进展不慢，但其核心交换芯片仍主要依赖博通 ( Broadcom ) ，网卡芯片则由迈络思 ( Mellanox ) 主导。

在 200G 及以上高速互联领域，RoCE 相关的 I/O 环节技术能力尚处于追赶阶段 ( 目前仅能支持 100G 级别 ) ，与 IB 网络主流的 400G 方案存在代际差距，很难满足大算力集群互联需求。

这也意味着，AIDC 高端互联领域核心技术仍未脱离海外厂商掌控，想要高位对接超大规模智算集群需求，必须直面 IB 技术路线国产化难关。

"NV 网络业务爆发印证了一个基本事实：在超大规模智算集群时代，高性能网络已经拿到主角剧本 "。有业内人士认为，IB 技术路线因其原生一体化设计和对极致性能的追求，成为全球头部 AI 集群的高配选择。

他指出，在国产智算基础设施发展初期，RoCE 不啻于一种务实方案，但在大集群网络互联中，仅依靠嫁接于通用以太网的技术路径，很难从根本上突破性能天花板。

因此，推动 IB 网络自主化建设，已不仅仅是一项技术命题，更是 AI 大算力时代的战略任务。其意义不局限于现有国产技术体系的局部优化，而是真正锚定高性能网络这一核心短板，建立起兼顾自主可控和高效可用的技术底座，打造真正具备国际竞争力的智能算力新基建。

两会期间对超大规模智算集群的政策引导，既是对人工智能产业发展的强力推动，也向产业链上下游递出一份更严格的考卷。在 AI 算力竞争日益白热化当下，网络连接能力正成为决定集群效能的核心变量之一。打通智算集群的 " 任督二脉 "，亟需在核心网络技术上实现从外部依赖到自立自强的跃迁。这条路可能艰难且漫长，但却是叩响 AI 时代大门的关键一步。

宙世代

一起剪

相关标签