通义万相开源音频驱动视频模型Wan2.2-S2V,分钟级数字人视频可直接生成

大模型之家讯 8 月 26 日,通义万相重磅开源音频驱动视频模型 Wan2.2-S2V,仅需 1 张图片 + 1 段音频,就能生成面部表情自然、口型一致的分钟级电影级数字人视频,支持真人、卡通等多类型主体,适配肖像到全身任意画幅。该模型还支持文本控制镜头运动与角色互动,通过层次化帧压缩技术实现长视频稳定生成,已在 Github、HuggingFace、魔搭社区开放下载,用户也可通过阿里云百炼调用 API 或通义万相官网体验,将大幅提升数字人直播、影视制作等行业效率。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注