通义万相开源音频驱动视频模型Wan2.2-S2V，分钟级数字人视频可直接生成

大模型之家讯 8 月 26 日，通义万相重磅开源音频驱动视频模型 Wan2.2-S2V，仅需 1 张图片 + 1 段音频，就能生成面部表情自然、口型一致的分钟级电影级数字人视频，支持真人、卡通等多类型主体，适配肖像到全身任意画幅。该模型还支持文本控制镜头运动与角色互动，通过层次化帧压缩技术实现长视频稳定生成，已在 Github、HuggingFace、魔搭社区开放下载，用户也可通过阿里云百炼调用 API 或通义万相官网体验，将大幅提升数字人直播、影视制作等行业效率。

通义万相开源音频驱动视频模型Wan2.2-S2V，分钟级数字人视频可直接生成

发表回复