DeepMind 推出 Gemini Robotics 1.5 系列：让机器人“先思考后行动”

大模型之家讯 9月26日，DeepMind 公开了面向机器人和具身智能的 Gemini Robotics 1.5 系列，包含 Gemini Robotics 1.5（视觉‑语言‑动作模型）和 Gemini Robotics‑ER 1.5（视觉‑语言推理模型）。两款模型可联手构建强大的智能体框架：ER 1.5 负责对物理世界进行推理、空间理解、工具调用并生成多步骤计划，随后将每一步自然语言指令交给 1.5，后者以视觉与语言能力直接执行运动指令，并能反思与解释决策过程。视频演示中，Aloha 机器人根据旧金山垃圾分类规则将物品分别投入绿、蓝、黑桶；Apollo 在打包伦敦行李时主动查询天气并加入雨伞，展示了跨具身迁移学习与链式任务规划能力。DeepMind 表示，Gemini Robotics 1.5 让机器人具备“思考后行动”的能力，可在复杂环境中像人类一样推理并完成多步骤任务，标志着通用机器人的新篇章。

DeepMind 推出 Gemini Robotics 1.5 系列：让机器人“先思考后行动”

发表回复

DeepMind 推出 Gemini Robotics 1.5 系列：让机器人“先思考后行动”