从算力焦虑到网络效率，大模型基础设施迎来分水岭

过去三年，人工智能产业最常被提及的词是“算力焦虑”。

从大模型竞赛开启以来，模型规模与训练集群规模持续膨胀。全球范围内，从GPT系列模型到各类基础模型训练，超大规模智算集群已成为当前全球争夺AI话语权的“主战场”，也是下一代人工智能技术发展的基础。

中国信息通信研究院报告显示，大模型训练的算力需求大约每3.5个月就会翻一番，这意味着算力的绝对规模正在以一种近乎疯狂的速度扩张。例如部分新一代模型训练预计需要部署数十万张GPU卡，超万卡规模的训练集群正在成为行业常态。

然而，当训练集群的规模跨越万卡、甚至向十万卡进军时，网络通信能力正成为更加关键的挑战。在超大规模智算集群的构建中，由于单显卡的显存已无法加载千亿级参数，“存储墙”问题愈发凸显，而随之而来的“通信墙”则成为了制约性能的关键。

研究表明，在大规模分布式训练中，网络通信耗时占比可达到30%-50%，网络性能已成为影响算力系统效率的关键变量。

当前，AI基础设施正迎来一个关键的分水岭：行业瓶颈已从算力“是否充足”转向“能否高效协同”。通信效率与网络稳定性，正成为决定训练成本与迭代速度的真正胜负手。

从“计算中心”到“网络集群”：大模型基础设施正在重构

回顾高性能计算的发展历史，网络从来不是附属组件，而是系统性能的重要组成部分。

随着人工智能训练规模迅速逼近甚至超过传统高性能计算系统的规模级别，算力供给模式正从单体计算向“集群智算”转变，而算力网络也随之成为核心算力组件。在大规模智算集群中，网络面临着超高带宽、极低延迟、无损传输与易扩展这四大刚性需求。

“在大规模运行系统中，系统性能同样遵循木桶效应。”中科曙光工业计算方案总监姚浪指出，在超算与智算融合的趋势下，超算系统的效率并不等同于系统的峰值算力。

“如果网络性能不足，会出现CPU在等待数据，服务器持续耗电，但计算单元并没有真正工作。”姚浪表示，在理想情况下算力利用率理论上可以达到90%以上，但在网络瓶颈存在时，利用率可能只有50%左右，这意味着接近一半的算力会被浪费。

当前，大规模AI训练集群主要依赖RDMA（Remote Direct Memory Access，远程直接内存访问）技术来实现高效率通信。

为了解决通信效率问题，行业形成了两条主要的技术路径：Infiniband（IB）与RoCE（RDMA over Converged Ethernet）。

其中，RoCE的优势在于兼容传统IP网络生态，但其本质仍然依赖以太网体系，需要交换机、网卡及操作系统之间进行极其精密的毫秒级协同才能勉强实现无损，且延迟通常在25μs以上。

而IB则采用专门设计的通信协议栈，其网络机制天然支持低延迟和无损传输，端到端延迟可控制在微秒级（<1.5μs），因此在高性能计算和AI训练集群中被广泛采用。根据TOP500榜单统计，目前全球约60%的高性能计算系统采用IB网络架构。

IB网络作为一种专用协议栈，独立于IP网络。它采用了硬件原生的无损机制，具有原生无损传输、低延迟和高带宽的特点，相比之下，基于UDP/IP的RoCEv2虽然利用了以太网生态，但其本质上仍是有损网络，需要交换机、网卡及操作系统之间进行极其精密的毫秒级协同才能勉强实现无损，且延迟通常在25μs以上。

然而，IB产业链长期以来被海外厂商高度垄断，这成为了中国大模型产业向上突破的一道隐形屏障。

国产高端互联进入工程化阶段

就在这种“既要性能、又要自主”的博弈中，国产高端互联技术的工程化落地迎来了关键性节点。

3月12日，中科曙光正式发布了首款全栈自研400G无损高速网络——scaleFabric。这标志着中国在高端RDMA领域正式迈入了全栈自研的时代。

在关键性能参数上，scaleFabric基于原生RDMA架构，从底层112G SerDes IP、交换芯片、网卡到交换机、驱动与管理软件实现100%自主研发，构建起从硬件到软件的完整国产算力技术结构布局。

从技术指标来看，这一系统面向超大规模智算集群设计，其性能指标对标英伟达等国际主流产品。scaleFabric400网卡基于PCIe5.0接口，单端口带宽达到400Gbps，转发时延仅为260ns，端到端时延小于1μs，这为超大规模智算集群铺就了一条高带宽、低时延的“算力大动脉”。

在组网能力方面，scaleFabric的单子网可支持11.4万个节点组网，这一数据是目前市面主流IB产品（约4.9万节点）的2.33倍，为未来“十万卡集群”乃至更大规模的计算任务预留了充足的扩展性。

测试数据表明，在并行计算场景中，国产IB网络方案的系统效率可达到约85%，而传统RoCE方案大约为65%左右，这意味着核心计算资源利用率可以提升20%以上。

目前，scaleFabric的性能可以达到英伟达最新一代NDR 400G网络的96-105%左右，在性能上已经完全具备和国际竞争水平。这一技术已在国家超算互联网郑州核心节点商用集群中得到了规模化验证，支撑三套万卡级scaleX智算集群上线运行。

当网络成为变量，大模型训练逻辑正在改变

随着网络性能成为关键变量，大模型架构本身也在发生变化。

近年来，大模型领域出现一个明显趋势——分布式训练规模不断扩大。在大规模并行场景下，性能瓶颈往往不在“算”，而在“存”和“传”，三者任何一个失衡都会导致整体效率指数级下降。

因此，大规模智算集群系统的性能并不是单点算力问题，而是计算、存储、网络三要素的协同效率问题。依托4款核心芯片协同构建“存、算、传”紧耦合架构底座，scaleFabric能够实现1+1+1大于3的效果，最终实现整体性能的跃升，这是曙光在系统级创新上的重要成果。

科大讯飞AI工程院智算基础设施架构师鲍中帅则从产业实践角度表示，没有这些算力底座做支撑，再繁荣的AI应用也很难真正落地生根。他认为，要更好发挥国产硬件的相关效能，一方面需要深入理解算力本身的特性，另一方面也需要理解上层模型结构，将软件与硬件进行结合。理解这些并行模式，是构建高效智算基础设施的重要前提。

例如在MoE模型等架构中，模型由大量专家子网络组成，训练过程中需要频繁进行跨节点数据交换。这种架构虽然能够显著提升模型规模和能力，但同时也对网络带宽和延迟提出了更高要求。

与此同时，大规模训练系统还面临稳定性与能效挑战。鲍中帅指出，对于基础设施建设者而言，scaleX超系统通过浸没式相变液冷技术，支持860千瓦级的功率密度，显著提升了数据中心的能效水平。他认为，这种系统性的整合优化是未来智算中心建设的标杆。

从算力焦虑到网络效率：基础设施的分水岭

人工智能产业的发展，往往伴随着基础设施体系的升级。

这种转变预示着智算中心建设正进入一个“超智融合”的新阶段。过去，超算网络与智算网络往往是割裂的。随着scaleFabric这种既能兼容超算精密计算需求、又能适配AI万卡集群通信需求的原生技术成熟，一种标准化、模块化的“集群智算”模式正在成型。算力网络不再仅仅是连接设备的导线，而是成为了与GPU同等地位的“核心算力组件”。

这个分水岭的出现，标志着大模型竞争正从“暴力堆砌”向“精细化治理”转变。在这一阶段，GPU数量不再是唯一指标。网络互联能力、系统稳定性以及算网协同能力，正在成为决定基础设施能力的关键因素。

另一方面，高速网络作为算力基础设施的核心关键技术，其自主可控性直接关系到国家算力基础设施的安全与发展质量。国产原生RDMA网络的问世，打破了海外巨头在高端智算互联领域的垄断，推动了国产算力生态的闭环。

网络效率为智算发展带来确定性

在人工智能的长跑中，算力是体力，算法是技巧，而网络则是连接大脑与四肢的神经系统。当全球AI竞争进入“万卡时代”的深水区，单纯依靠算力堆叠已难以为继。

国产全栈自研400G无损高速网络的落地，不仅为超大规模智算集群铺就了算力大动脉，更向行业明确了一个信号：网络效率已成为基础设施演进的新标尺。

中国科学院计算技术研究所研究员王展指出，真正能够推动人类向前发展的动力往往首先来自科学领域，如果把科学研究的第一到第四范式整合起来，再引入人工智能方法，科学研究有可能演化出“第五范式”。在这一范式中，AI可以把理论、实验和计算叠加在一起，形成一个能够加速科学进展的回环体系——“理论+计算+智能”的回环。

作为首批应用scaleFabric的团队，王展通过分子动力学模拟实测发现，通信侧是强可扩展计算的主要瓶颈。如果要让AI真正参与科学发现，就需要一种融合计算、数据与智能的基础设施体系，而高效的网络互联能力正是其中不可或缺的关键组件。

中科曙光凭借与英伟达相似的“基因”及技术攻坚，已在产品层面实现全线对标，其国产IB网卡交换机和scaleFabric技术显著提升了DCU带宽性能，弥补了国产底层计算系统支撑科学智能发展的短板。

在从单体智算向集群智算转变的过程中，效率是通往AGI的唯一确定性。

如果说GPU是人工智能时代的“发动机”，那么高速网络正在成为支撑整个系统运转的“底盘”。在万卡时代，这条“算力高速公路”的效率，或许将决定下一阶段人工智能产业的发展速度。

原创文章，作者：志斌，如若转载，请注明出处：http://www.damoai.com.cn/archives/14940