昆仑万维密集开源Matrix系列新模型,聚焦3D世界生成与交互式长序列生成

大模型之家讯 8月11日,昆仑万维启动为期五天的SkyWork AI技术发布周,每天发布一款覆盖多模态AI核心场景的前沿模型。继8月11日推出SkyReels-A3后,8月12日公司相继开源了两项重要成果——3D世界生成模型「Matrix-3D」与升级版交互世界模型「Matrix-Game 2.0」,在空间智能与世界模型领域实现双向突破。

Matrix-3D:从单图/文本生成可探索的3D世界

昆仑万维密集开源Matrix系列新模型,聚焦3D世界生成与交互式长序列生成

Matrix-3D面向虚拟现实、机器人导航与通用智能体应用,采用融合全景视频生成与三维重建的统一框架,从单张图像或文本生成高质量、轨迹一致的全景视频,并直接还原可自由漫游的3D场景。与现有依赖多视角输入的方案相比,Matrix-3D在几何一致性、可探索范围及生成速度上均实现提升。

昆仑万维密集开源Matrix系列新模型,聚焦3D世界生成与交互式长序列生成

模型核心包括轨迹引导的全景视频生成、双路径全景3D重建(快速前馈重建与精细优化重建)以及自研Matrix-Pano数据集。该数据集包含116K条带有精确相机轨迹、深度图和文本注释的全景视频序列,显著提升了生成模型的泛化能力与控制精度。Matrix-3D支持文本、图像双模输入,具备全局一致的几何与色彩表现、大范围场景生成、可控性强、生成速度快等特性,并在全景视频生成评测中取得业内领先成绩。

昆仑万维密集开源Matrix系列新模型,聚焦3D世界生成与交互式长序列生成

Matrix-Game 2.0:实时长序列交互式世界模型

在交互式生成方向,Matrix-Game 2.0以视觉驱动为核心,弱化语言先验,聚焦通过图像理解与物理规律建模构建虚拟世界。新版本在推理速度、生成时长和交互性能上全面提升,支持25 FPS实时生成分钟级连续画面,保持动作与视觉的时序一致性,并可通过键盘、鼠标等方式实现自由探索与场景操控。

昆仑万维密集开源Matrix系列新模型,聚焦3D世界生成与交互式长序列生成

其架构融合3D Causal VAE压缩、多模态扩散Transformer与动作控制模块,并通过自回归扩散机制、分布匹配蒸馏及KV缓存技术解决延迟与误差累积问题,实现单GPU下的高效长序列生成。该模型适配多种场景与风格,物理一致性更强,可在静态、动态及游戏类环境(如GTA、Minecraft)中生成符合物理逻辑的交互视频。

空间智能的新支点

业内普遍认为,空间智能是通向具身智能与通用人工智能(AGI)的关键前沿。Matrix-3D与Matrix-Game 2.0的开源不仅为虚拟现实、游戏开发、影视制作、机器人训练等领域提供了高质量技术底座,也体现出昆仑万维在世界模型方向的持续投入与前瞻布局。

伴随AI生成能力从二维走向三维、从内容生产延伸至世界构建,空间智能的技术演进正在重塑虚拟交互的边界。这两款模型的开源,有望加速国内外相关研究与应用落地,推动中国在全球世界模型竞赛中占据更有力的技术位置。

原创文章,作者:志斌,如若转载,请注明出处:http://www.damoai.com.cn/archives/12219

(0)
上一篇 1天前
下一篇 18小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注