
伴随着开源智能体OpenClaw的走红,全球千万个桌面被那只鲜红的龙虾图标占据。这场被戏称为“养龙虾”的热潮,本质上是AI技术从“纸上谈兵”进化到“替人办事”的临界点。与过去那个只会聊天、写诗的对话框不同,如今的Agent能够像真人一样跨越浏览器、办公软件和底层系统,自主闭环地完成复杂的任务。
然而,这场狂欢背后隐藏着一个让基础设施供应商“压力山大”的数据:英伟达CEO黄仁勋曾透露:以OpenClaw为代表的Agent,执行复杂任务的Token消耗,比传统生成式大模型激增约1000倍;持续监测类Agent可达百万倍。这意味着,当一个用户让智能体帮忙订一份旅游计划并自动比价、下单时,背后燃烧的算力成本正呈指数级跳跃。
如果说过去AI是“算力密集型产业”,那么今天它正在迅速转变为“Token密集型产业”。算力系统的核心评价指标,也不再只是峰值算力,而是单位成本下的Token产出效率。而算力基础设施的角色,正在从“算力工厂”转向“Token工厂”,服务对象也从以训练为主,转向以推理与服务为主。
国家数据局数据显示,中国日均Token消耗量,已从2024年初的1000亿,来到2025年中的突破30万亿,1年半时间增长逾300倍。OpenRouter的最新数据显示,今年3月中旬,中国大模型调用量已连续两周超过美国,单周达到4.69万亿Token。
这种近乎“海啸式”的需求增长,正在倒逼整个算力基础设施体系进行一次系统性重构。
算力焦虑背后,被忽视的交付断层
在很长一段时间里,高端算力市场其实存在着一个隐秘的“落地断层”。过去几年,行业讨论最多的是“算力焦虑”。各地数据中心上马、GPU集群扩张、万卡级训练成为标配叙事。但在实际落地中,一个更具体的问题逐渐浮出水面:算力不是建好就能用,而是需要被“交付”。
对于大多数寻求AI转型的中型企业或科研机构来说,传统的8卡服务器在面对当前模型高速发展时,越来越显得捉襟见肘。
但如果向上寻求更高端的超节点方案,往往又会撞上一堵无形的墙:现有的万卡集群、柜式超节点不仅采购门槛动辄数百万甚至上千万,对数据中心机房的电力、散热和空间要求也极其苛刻。更关键的是,这类超节点本质上是为“训练时代”设计的产物。在以推理为主的Token时代,其性能配置在很多场景下已经出现“过剩”。
这种“高端过剩、低端不足”的结构性错位,构成了算力普惠的第一道障碍。
更令运维工程师崩溃的是物理结构上的“熵增”。传统的超节点内部布线不仅安装周期长、调试难度大,而且任何一根线缆的松动都可能导致整个集群的宕机。在追求极速响应的Agent时代,这种依赖复杂工程交付、低容错率的设备,显然无法承接起普惠化、规模化的算力输出需求。
因此,做用户用得上、买得起、用得好的超节点,既是行业需求,也成为算力基础设施走向普及的关键前提。
从工程到产品:超节点开始“去工程化”
变化正在发生,但不是从算力规模,而是从产品形态开始。
正是在这种行业转型的关键节点,一种全新的产品形态开始浮出水面。3月26日,中科曙光在北京发布了其最新研发的scaleX40超节点。与以往那些需要专业团队进驻机房数周才能完成部署的庞然大物不同,这款产品被定义为世界首个无线缆箱式超节点。

这不仅仅是物理空间上的体积压缩。所谓“箱式”,意味着它采用了标准的19英寸设计,能够无缝兼容现有的主流机柜。而“无线缆”则是其最具颠覆性的工程突破——通过计算节点与交换节点的正交架构对接,取代了原本密密麻麻的连接线。这种从“线”到“面”的结构革命,本质上是将复杂的机房工程“固化”到了硬件芯片级,让scaleX40的可用性相比铜缆模式提高了10倍,而功耗则相比光纤连接下降了40%至70%。
在算力产业的逻辑里,并不是堆叠的硬件越多,性能收益就越高。行业观察发现,算力投资存在一个明显的“甜点区”,投入产出比最高。
在关键指标上,scaleX40完全踩在当前模型推理的“性能甜点”上:单节点集成40张GPU,总算力超过28PFLOPS(FP8精度),HBM显存容量超过5TB,访存带宽超过80TB/s。系统可靠性提升至99.99%,在降低复杂度的同时兼顾稳定性与能效表现。为了确保这40张卡的高效协同,其采用了一级互连Scale-Up架构,聚合带宽超过17TB/s。这种全互连设计保证了内存语义和统一显存编址,让大规模参数的频繁交换不再受制于线缆带来的微秒级延迟。
这种配置实际上是为中高端AI应用量身定制的。它填补了传统8卡服务器性能不足与高端柜式超节点门槛过高之间的“空白地带”。对于正在开发垂直领域智能体的企业来说,这种“开箱即用”的高密集成设备,极大地缩短了模型从训练到推理落地的周期。
中科曙光高级副总裁李斌表示,scaleX40的核心并不只是提升算力密度,更重要的是通过架构创新,降低超节点的部署和使用门槛,使其能够以更标准化的方式进入更多应用场景。
在结构上,这类方案通过高度集成设计,将计算节点与网络互连进行一体化封装,并尝试减少甚至取消传统意义上的外部线缆连接,为AI算力从“工程化建设”走向“产品化供给”提供了全新路径。
这种“开箱即用”的构架,恰恰切中了行业对于AI部署效率与灵活性的痛点。
scaleX40的规模配置,恰好落在性能与成本的平衡点上,既具备支持大模型训练和推理的能力,又不会带来过重的投入压力。更关键的是,它不是“只能这样用”。向下,可兼顾32卡,满足中小规模训练、推理和开发测试;向上,它可以通过扩展,组成更大规模集群。
这种“可小可大”的能力,让企业可以根据业务节奏逐步投入,而不是一次性押注,使算力部署更贴近企业实际节奏,避免一次性高投入带来的资源压力。
存、算、传全栈协同:算力不再是“单打独斗”
Token时代的竞争,不只是“算得快”,更是“算得稳、算得多、算得经济”。
智能体时代的一个核心特征,是任务链条变长——一次完整的Agent任务,往往涉及多轮推理、数据调用、上下文管理。这对基础设施提出了一个新的要求:不能只管“算”,还得管“存”和“运”。
换句话说,算力不再是“单打独斗”,而是系统能力的体现。
当Agent在毫秒间需要调取海量数据并进行多维推理时,存力不足往往会成为那个拖后腿的短板。针对这一痛点,配套的ParaStor存储系统提出了“存算网三级强协同”的思路。其亚毫秒级的延迟和亿级IOPS,确保了数据流动的速度能跟上算力狂奔的节奏,才能支撑大规模Token流动;调度平台则需要具备断点续训、故障隔离等能力,保证服务连续性。
与此同时,软件平台的角色也在发生变化。像SothisAI这样的一站式开发调度平台,已经开始集成自动断点续训和故障智能隔离功能。这意味着即使在复杂的超节点环境下,AI任务也能像运行普通的云服务一样实现业务无感恢复。
从硬件底层到框架层的深度对齐,让“无线缆超节点”不再是一个孤立的硬件盒子,而是成为了一个具备“工业级稳健性”的计算平台。它告诉市场,算力的普及不仅在于硬件的“形”,更在于软硬一体的“神”。
这种全栈生态的成熟度,直接决定了国产算力能否在国际竞争中占据一席之地。据智源研究院AI框架研发部门负责人敖玉龙透露:智源研究院与曙光围绕国产算力大模型高效训练开展了全链路深度合作,以智源联合生态伙伴打造的多芯片全栈开源软件栈FlagOS为核心载体,曙光深度参与了FlagOS的适配与核心能力共建。双方在1024卡集群上实现了大模型训练近线性扩展效率,训练Loss曲线与英伟达基线严格对齐,成品多模态模型经专业评测,与英伟达同条件基线效果差异极小,达到产业级应用标准。这充分验证了国产芯片在前沿大规模多模态预训练场景,可实现与国际主流厂商同等的训练效果。
当Token成为生产资料,基础设施才是护城河
回顾过去几年,中国AI大模型调用量的领先只是迈出了第一步。接下来的核心挑战在于,我们能否构建一个“不仅用得起,还用得好、离不开”的产业生态。
从“养虾热”到Agent化转型的全面开启,算力基础设施的形态演进正成为这场变革的“胜负手”。
无线缆箱式超节点的面世,预示着超节点正在从一种定制化的产品,变成一种像空调、服务器一样可以规模化部署、标准化采购的通用单元。它试图把复杂的系统能力,压缩成一个可以被快速部署和复制的标准单元。它让“Token产线”的搭建变得像乐高积木一样简单,成为推动行业普及的密钥。
这不仅是一个基础设施问题,但本质上决定的是应用生态的上限。未来,算力将不再是少数公司的专属资源,而会像服务器、云服务一样,成为各行各业触手可及的生产工具。当这种“即插即用”的超节点遍布各地的边缘和中心机房,智能体时代的Token海啸,才真正从一种压力,变成推动数字经济高质量发展的强劲动力。
原创文章,作者:志斌,如若转载,请注明出处:http://www.damoai.com.cn/archives/15054