欢迎您来到深圳凌创辉电子有限公司!
0755-83216080

人工智能工厂激化全球超算互联之争

2025-09-23 1

作为现代计算系统“中枢神经系统”的通信主干网,其核心瓶颈已“明确转向通信架构”,而非芯片本身。TDxesmc

“互连网络是HPC系统的关键,”坎塔布里亚大学教授、巴塞罗那超级计算中心(BSC)联合研究员Ramon Beivide告诉《国际电子商情》姊妹平台《EETimes》,“AI应用的爆发式增长推动了高性能计算(HPC)的突破。而AI的实现,正源于HPC近年来的重大进展。”TDxesmc

随着超级计算机和专用“AI工厂”扩展至数千个计算节点,快速、可靠地传输海量数据的能力已成为未来性能提升的关键推动力。TDxesmc

这一趋势进一步激化了三大阵营的角逐:占据主导的专有标准体系、快速崛起的开放标准联盟,以及以中国华为代表的规模化新玩家。TDxesmc

TDxesmc

图1:坎塔布里亚大学教授、巴塞罗那超级计算中心联合研究员Ramon BeivideTDxesmc

预测显示,2024年估值高达402亿美元的高速互连市场将迎来强劲增长,其扩张势头主要受人工智能和机器学习基础设施建设的推动。TDxesmc

Beivide教授指出:“近年来,随着繁重的AI工作负载需要更多互联的处理器和加速器,系统网络的规模不断扩大。我们正从‘前沿(Frontier)’超级计算机的几万个端点,发展到当前AI项目中数十万甚至数百万的规模。因此,网络的关键需求之一是高寻址能力——而像Infiniband这类协议在这方面可能显现出局限性。”TDxesmc

英伟达的集成化AI工厂模式 vs. 开放生态系统

当前市场格局的核心矛盾,本质上是两种哲学理念的冲突。一方是英伟达的垂直整合模式,其根基在于自有的InfiniBand技术标准。InfiniBand的统治地位可追溯至Mellanox Technologies的长期培育——这家公司于2020年被英伟达以70亿美元收入麾下。TDxesmc

此次收购将加速计算领域的领导者与高性能网络领域的领导者合二为一,使InfiniBand成为AI工厂不可或缺的网络基础设施。TDxesmc

TDxesmc

图2:高速互联市场 图片来源:SNS InsiderTDxesmc

InfiniBand之所以卓越,是因为它从设计之初就为远程直接内存访问(RDMA)而生,使网卡能够直接访问远程内存,完全绕过CPU和操作系统内核,实现真正的“零拷贝”网络。这一特性对分布式AI训练至关重要——任何延迟都会导致“海量且昂贵的GPU阵列闲置”,直接延长训练时间并推高成本。TDxesmc

此外,英伟达还通过其可扩展分层聚合与归约协议(SHARP)实现了网络内计算,将特定数据处理任务直接卸载到网络硬件上执行。TDxesmc

TDxesmc

图3:InfiniBand 的历程:从标准到人工智能骨干TDxesmc

尽管InfiniBand占据主导地位,但现代AI所需的大规模扩展仍带来新的挑战。Beivide指出,关键的网络需求之一是具备高寻址能力,而InfiniBand等协议在这方面可能显现局限性。他还提到,作为HPC领域的领军机构,BSC已与英伟达就此议题达成长期研究合作协议。TDxesmc

面对业界普遍认为的专有技术锁定问题,行业已团结起来将高速以太网视为唯一可行的开放替代方案。2023年,包括AMD、博通、思科、慧与(HPE)、英特尔、Meta和微软在内的主要厂商共同成立了超以太网联盟(Ultra Ethernet Consortium,简称UEC)。TDxesmc

超以太网联盟致力于通过突破以太网传统局限,为AI与HPC建立开放、可互操作的标准。该计划的核心是‌基于融合以太网的远程直接内存访问(RoCE)‌,而UEC 1.0规范进一步推出了‌超以太网传输协议(UET)‌,旨在使RDMA成为以太网的原生应用‌。TDxesmc

Beivide表示,以太网技术具有普适性,且通常比英伟达InfiniBand或克雷Slingshot等专有解决方案更具成本优势。他补充道,在相同环境中处理不同协议(这在专有系统中十分常见)会带来诸多不便。TDxesmc

这些因素(以及其他未提及的因素)可能会影响互联网络的演进方向,并可能推动UltraEthernet在未来获得广泛采用。TDxesmc

超级计算标准

在极端高性能计算领域,2025年6月TOP500榜单上两大领先互连技术已明确划定了竞争格局。TDxesmc

TDxesmc

图4:劳伦斯利弗莫尔国家实验室的旗舰级百亿亿次超级计算机ECapitan 图片来源:Garry McLeod/LLNLTDxesmc

虽然英伟达InfiniBand为众多顶尖商用及国际系统提供支持,但惠普企业(HPE)基于以太网的Slingshot-11技术则占据绝对巅峰,连接着首批百亿亿次超级计算机,例如“埃尔卡皮坦(El Capitan)”“前沿(Frontier)”和“极光(Aurora)”。这三台超算均位于美国能源部(DOE)下属实验室。TDxesmc

TDxesmc

图5:市场主导地位:高性能互连领域TDxesmc

巴塞罗那超级计算中心的MareNostrum 5超级计算机采用英伟达InfiniBand NDR技术。具体而言,其互连网络基于InfiniBand NDR200。Beivide指出,部分超级计算机仍将沿用专有解决方案,而这很可能将影响未来网络技术的演进方向。TDxesmc

华为发布革命性UnifiedBus架构

在2025年华为全联接大会(上海站)上,华为向全球市场投下重磅挑战,公布了其面向SuperPoDs与SuperClusters的宏伟技术路线图。该战略旨在通过创新计算架构,以可持续方式满足长期算力需求。TDxesmc

“可持续算力是AI持续进步的基石,”华为副董事长徐直军在9月中旬举办的2025年华为全联接大会(上海站)主题演讲中表示。华为推出了新一代昇腾AI芯片,以及一项突破性的互联协议——UnifiedBus(UB),旨在解决大规模系统中的关键挑战,例如超低延迟需求。TDxesmc

互联架构的未来

无论InfiniBand、Ethernet还是UnifiedBus成为主导协议,未来互联技术均面临物理定律的底层挑战。Ramon Beivide指出,‌网络拓扑与数据包路由‌是核心问题,需通过减少网络跳数降低延迟,同时利用非最短路径的多路由设计提升吞吐量‌。TDxesmc

“随着电气开关芯片的尺寸不断缩小,驱动信号通过传统铜走线所需的功耗已形成‘功耗墙’。行业正快速转向共封装光学(CPO)技术,其功耗可降低3.5倍以上。”TDxesmc

博通是CPO技术的主要倡导者,认为该技术是“下一代人工智能网络的必备技术”,并指出,无论采用何种协议,掌握这一物理层技术将很可能决定下一代行业的领导者。TDxesmc

TDxesmc

3003677450

微信二维码

扫码微信咨询

0755-83216080