大模型之家讯 今天,腾讯混元团队正式发布混元3D世界模型系列最新成果——HunyuanWorld-Voyager(简称混元Voyager)。这是业界首个支持原生3D重建的超长漫游世界模型,被视为AI在空间智能(Spatial Intelligence)应用上的一次重要突破。

混元Voyager的核心能力在于弥补传统视频生成在空间一致性和探索范围上的不足。它不仅能够生成长距离、世界一致的漫游场景,还能直接将生成视频导出为3D格式,为虚拟现实、物理仿真、游戏开发等应用提供更高保真的沉浸体验。

与此前已开源的混元世界模型1.0相比,Voyager在3D输入-3D输出环节实现了更高适配度,可扩展原有模型的漫游范围并提升复杂场景的生成质量,同时支持风格化控制和编辑。功能层面上,它覆盖了视频场景重建、3D物体纹理生成、视频风格定制化生成、视频深度估计等多种3D理解与生成任务。

在技术实现上,Voyager首次将场景深度预测引入视频生成过程,结合视频生成与3D建模的优势,利用相机可控的视频生成技术,从初始场景视图和用户指定相机轨迹合成可控视角的RGB-D视频(包含图像与深度信息)。用户可通过键盘或摇杆进行漫游操作,生成过程中的空间记忆机制则确保了画面的连贯性与一致性。此外,Voyager支持无损导出3D点云,无需依赖额外重建工具。

模型架构上,Voyager引入了可扩展的世界缓存机制:基于1.0模型生成的初始点云缓存将被投影到目标相机视图中,提供几何一致性的指导;生成的视频帧会实时更新缓存,形成闭环系统,从而扩展漫游范围并提升画质。

在评测表现方面,Voyager在斯坦福大学李飞飞团队提出的世界模型基准测试WorldScore上位居综合能力首位,超越现有开源方法,在视频生成与3D重建两类任务中均表现突出。

自7月混元3D世界模型1.0发布以来,腾讯混元团队已连续推出1.0 Lite版和Voyager版本,持续优化显存需求、漫游范围与空间一致性。在开源社区中,混元3D系列的下载量位居前列,体现了行业对高质量开源模型的需求。除3D模型外,混元还开源了多款基础大模型,包括MoE架构的混元Large、混合推理模型Hunyuan-A13B、小尺寸端侧模型以及在翻译比赛中取得优异成绩的Hunyuan-MT-7B。


目前,HunyuanWorld-Voyager已正式上线,技术报告和源代码同步公开,用户可通过GitHub与Hugging Face下载与使用。

项目主页:https://3d-models.hunyuan.tencent.com/world/
GitHub:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
Hugging Face:https://huggingface.co/tencent/HunyuanWorld-Voyager
技术报告:https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
原创文章,作者:志斌,如若转载,请注明出处:http://www.damoai.com.cn/archives/12616