昆仑万维密集开源Matrix系列新模型，聚焦3D世界生成与交互式长序列生成

志斌 • 2025年8月12日上午10:04 • 人工智能

大模型之家讯 8月11日，昆仑万维启动为期五天的SkyWork AI技术发布周，每天发布一款覆盖多模态AI核心场景的前沿模型。继8月11日推出SkyReels-A3后，8月12日公司相继开源了两项重要成果——3D世界生成模型「Matrix-3D」与升级版交互世界模型「Matrix-Game 2.0」，在空间智能与世界模型领域实现双向突破。

Matrix-3D：从单图/文本生成可探索的3D世界

Matrix-3D面向虚拟现实、机器人导航与通用智能体应用，采用融合全景视频生成与三维重建的统一框架，从单张图像或文本生成高质量、轨迹一致的全景视频，并直接还原可自由漫游的3D场景。与现有依赖多视角输入的方案相比，Matrix-3D在几何一致性、可探索范围及生成速度上均实现提升。

模型核心包括轨迹引导的全景视频生成、双路径全景3D重建（快速前馈重建与精细优化重建）以及自研Matrix-Pano数据集。该数据集包含116K条带有精确相机轨迹、深度图和文本注释的全景视频序列，显著提升了生成模型的泛化能力与控制精度。Matrix-3D支持文本、图像双模输入，具备全局一致的几何与色彩表现、大范围场景生成、可控性强、生成速度快等特性，并在全景视频生成评测中取得业内领先成绩。

Matrix-Game 2.0：实时长序列交互式世界模型

在交互式生成方向，Matrix-Game 2.0以视觉驱动为核心，弱化语言先验，聚焦通过图像理解与物理规律建模构建虚拟世界。新版本在推理速度、生成时长和交互性能上全面提升，支持25 FPS实时生成分钟级连续画面，保持动作与视觉的时序一致性，并可通过键盘、鼠标等方式实现自由探索与场景操控。

其架构融合3D Causal VAE压缩、多模态扩散Transformer与动作控制模块，并通过自回归扩散机制、分布匹配蒸馏及KV缓存技术解决延迟与误差累积问题，实现单GPU下的高效长序列生成。该模型适配多种场景与风格，物理一致性更强，可在静态、动态及游戏类环境（如GTA、Minecraft）中生成符合物理逻辑的交互视频。