6月12日至13日,第八届智源大会在北京举行,世界模型成为本届大会最受关注的议题之一。昆仑万维旗下Skywork首席科学家刘扬受邀出席并发表演讲,首次公布Matrix-Game 3.5的核心技术突破,该版本计划于2026年7月正式发布。

刘扬在演讲中指出,当前业内对”世界模型”的定义存在严重混淆——视频生成、3D表征、交互式模拟器等不同方向的研究者所指并非同一对象。他定义的世界模型包含三个层次:理解当下状态、预测下一状态、将预测结果渲染呈现。Matrix-Game的实践进一步揭示,状态的预测与动作的生成应当联合训练而非分而治之,这一理念是Skywork团队对世界模型认知的核心升级。

Matrix-Game自2024年下半年启动研发以来,在不到两年时间内完成了多次跨越:2025年3月发布1.0版本,成为最早公开的可交互世界模型之一;2025年8月发布2.0版本,实现分钟级实时交互;2026年3月发布3.0版本,补齐了世界模型公认的三大短板——记忆、长时程和实时性。此次披露的3.5版本最大变化是从游戏场景向真实场景全面扩展,支持多风格动态切换与指令控制,并引入NPC交互能力。

在数据方面,Skywork团队构建了三条自动化数据生产管线,输出Video+Pose+Action+Language的高质量训练数据,截至目前已产出500万以上高质量视频切片、1万以上有效训练小时数。刘扬还系统披露了训练中的四大关键挑战:动作信号与视觉画面缺乏一一对应、模型不理解动作的物理后果、注入控制参数破坏原始视频分布、记忆检索方式影响长时程一致性。

刘扬表示,团队的下一个目标是构建原生统一的世界模型框架——让状态理解与动作生成从串联走向联合、从分裂走向统一,推动世界模型跨越游戏边界,迈向机器人控制与物理世界交互。
原创文章,作者:志斌,如若转载,请注明出处:http://www.damoai.com.cn/archives/16163