长久以来,具身智能(Embodied AI)的发展被“一个身体一套模型”的范式所困。自动驾驶车辆、四足机器人、低空无人机,尽管都需在物理世界中行动,却因形态差异巨大,被迫各自训练、各自优化,导致模型难以复用、能力难以迁移。而大晓机器人联合上海交通大学、南洋理工大学、香港中文大学等机构推出的ACE-Brain-0,首次以“空间智能”为统一语言,打破本体壁垒,实现跨形态的通用认知。

ACE-Brain-0并非简单堆叠多任务数据,而是从认知底层重构智能体与世界的关系。其核心理念是:先学会“看懂世界”,再学会“完成任务”。通过建立三维空间结构建模、几何关系推理与场景演化预测三大共性能力,ACE-Brain-0为不同物理载体提供了一套共享的“空间认知骨架”。无论是判断车距、估算抓取距离,还是从无人机视角识别城市地标,其底层逻辑都源于同一套空间理解机制。

这一转变,标志着具身智能从“任务导向”迈向“认知导向”——不再追求模型能做多少事,而是追问:它是否真正理解了物理世界的基本结构?
19项SOTA背后的技术范式:SSR训练与空间中心化架构
ACE-Brain-0的卓越表现,源于其创新的Scaffold-Specialize-Reconcile(SSR)三阶段训练范式,有效破解了跨域训练中的“梯度干扰”与“灾难性遗忘”两大难题。

在Scaffold阶段,模型通过大规模空间数据学习通用三维认知先验,构建“通用地基”;在Specialize阶段,各领域专家(如自动驾驶、机器人、低空感知)在隔离环境中独立微调,确保专业能力不被稀释;最后在Reconcile阶段,通过任务向量空间对齐技术,实现参数级融合,无需原始数据即可整合知识。这一流程,既保留了通用性,又强化了专业性。
架构上,ACE-Brain-0采用空间信息驱动的多模态自回归设计。输入层兼容图像、视频与自然语言指令;表征层通过通用视觉编码器提取空间特征,并按“通用、空间、驾驶、航空、具身”分类组织;推理层则由统一LLM解码器实现跨模态融合。这种“空间中心化”设计,使模型在不同本体间实现知识自由流动——例如,自动驾驶中的“车距判断”与机器人“抓取距离估算”共享同一套距离推理机制。




实测中,ACE-Brain-0在24个核心benchmark中刷新19项SOTA。在MindCube(受限视角三维建模)中,其82.1%的准确率较开源最强模型InternVL3-8B提升97.8%;在UrbanVideo-Bench(城市级无人机理解)中,性能提升达51.7%;在NuPlanQA(自动驾驶规划)中,决策正确率高达91.7%,全面超越GPT-4o、Gemini 2.5-Pro等16个主流模型。
从实验室到街头:机器狗的“空间智能”如何改变现实?
技术突破的真正价值,在于落地能力。搭载ACE-Brain-0的大晓机器狗A1,已展现出前所未有的端到端自主导航能力。在城市人行道等复杂场景中,它不仅能精准量化行人与摩托车之间仅0.5米的间距,还能理解“是否有足够空间通过”这类抽象指令,并主动提出“谨慎前行”的安全建议——这不仅是感知,更是基于空间理解的决策与责任意识。
更关键的是,这种能力并非定制化产物,而是源于通用空间智能的自然迁移。当机器狗识别前方障碍物时,它调用的并非专属避障模块,而是与自动驾驶车辆共享的“空间识别-目标预测”协同机制。这种“一脑多形”的范式,大幅降低部署成本,为公共巡检、应急响应、低空物流等场景提供可扩展的智能底座。
ACE-Brain-0的开源,不仅是一次技术发布,更是一场认知范式的转移。它证明:真正的通用具身智能,不在于模型能执行多少任务,而在于它是否掌握了一套理解物理世界的基本语言——而空间,正是这门语言的语法。
未来,无论是飞驰的汽车、盘旋的无人机,还是行走的机器人,或许都将运行在同一套“空间大脑”之上——它们形态各异,却共享对世界的一致理解。这,才是通用智能的真正起点。
项目链接:
论文:https://arxiv.org/abs/2603.03198
项目主页:https://ace-brain-team.github.io/ACE-Brain-0
代码开源:https://github.com/ACE-BRAIN-Team/ACE-Brain-0
Hugging Face模型:https://huggingface.co/ACE-Brain/ACE-Brain-0-8B
原创文章,作者:志斌,如若转载,请注明出处:http://www.damoai.com.cn/archives/14822