大模型之家讯 近日,在全球空间智能领域引发广泛关注的事件中,来自上海交通大学、斯坦福大学、北京智源研究院、北京大学、牛津大学以及东京大学的研究者们联合推出了一项创新成果——空间大模型SpatialBot。此举回应了著名人工智能专家李飞飞教授此前提出的“空间智能”(Spatial Intelligence)概念,标志着该领域研究进入了一个全新阶段。
SpatialBot旨在推动多模态大模型在通用场景与具身场景下的空间理解能力。为此,研究团队提出了全新的训练数据集SpatialQA,以及测试榜单SpatialBench,试图通过多模态数据来提升模型在深度和空间理解方面的表现。目前,SpatialBot系列模型和数据集已经在始智AI的开源社区平台wisemodel.cn上发布。
在具身智能领域的任务中,例如pick and place任务中,判断机械爪是否成功接触到目标物体一直是个挑战。传统模型(包括GPT-4o在内)甚至难以从单张RGB图像中判断这一点,无法利用深度图进行准确分析。而SpatialBot通过对RGB-Depth的深度理解,能够准确地获取机械爪与目标物体之间的深度值,实现了对空间概念的理解,为具身场景下的智能决策奠定了基础。
为了进一步探索和推动空间智能的发展,研究团队设计了三个层次的SpatialQA数据集,引导模型从深度图中直接获取信息,并将深度与RGB数据对齐。此外,SpatialBot借鉴了智能体(agent)的思想,通过API调用准确的深度信息,在深度理解和空间推理任务中取得了99%以上的准确率。
在测试中,SpatialBot不仅在常用多模态数据集(如MME、MMBench)上表现优异,还在Open X-Embodiment和机器人抓取数据等具身任务中展示了惊人的效果。随着SpatialBot及其配套的SpatialQA和SpatialBench的发布,这一创新成果为实现更为广泛的具身智能应用提供了重要支持,预示着未来人工智能在空间智能理解方面的广阔前景。
原创文章,作者:志斌,如若转载,请注明出处:http://www.damoai.com.cn/archives/7084