新清影：模型全面升级、4K、任意比例、自带音效

王昊达 • 2024年11月8日下午5:01 • 资讯

大模型之家讯 11月8日，清影迈入新阶段：10s时长、4k、60 帧超高清画质、任意尺寸，自带音效，以及更好人体动作和物理世界模拟。

3 个月前，作为国内首个面向公众开放的视频生成产品，清影上线清言App，只需一段指令或图片，30 秒就能生成 AI 视频。为人类影视创作带来了更多创新玩法，如广告制作、短视频、表情包梗图等。

清影发布后不久，GLM 技术团队先后开源了 CogVideoX 2B 和 5B 版本两个模型，可在消费级显卡上流畅运行，性能领先的 CogVideoX-5B 模型自开源以来受到广泛的关注，并衍生出如 CogVideoX-factory 等大量的二次开发项目。

基于 CogVideoX 模型的最新技术进展和我们最新推出的音效模型 CogSound，新清影在以下 5 个方面实现了提升。

模型能力全面提升：在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强。

4K超高清分辨率：支持生成 10s、4K、60 帧超高清视频，视觉体验拉到极致，动态画面更加流畅。

可变比例：支持任意比例的图像生成视频，超宽画幅也能轻松 Hold 住，从而适应不同的播放需求。

多通道生成能力：同一指令/图片可以一次性生成 4 个视频。

带声效的AI视频：新清影可以生成与画面匹配的音效了。音效功能将很快在本月上线公测。

新清影即日起在智谱清言 App 上线：

https://chatglm.cn/video

为了支持广大开发者，我们也同时将 CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V 进行了开源。开源地址：

https://github.com/thudm/cogvideo

生成视频将为影视工作者、短视频创作者提升产量、产能，在其生产流程中发挥重要作用。不到一年时间，生成视频技术在视频时长、生成速度、分辨率、一致性等方面已经显示出长足进步。新清影往前又迈进了一步，未来，我们也将携手视觉中国等合作伙伴，基于更丰富的视觉内容，产出更好的 AI 生成视频工具。

“默片 Sora”进入“有声电影时代”
我们认为真正的智能一定是多模态的，听觉、视觉、触觉等共同参与了人脑认知能力的形成，因此，我们希望包括文字、图像、语音和视觉等模态在内的智谱多模态大模型矩阵，能够进一步提高大模型的应用和工具能力。

因此，GLM 模型家族逐步从文字拓展至图片、视频、声音，以及音效。今天，GLM 家族加入了新成员——音效模型 CogSound 和音乐模型 CogMusic。即将上线与大家见面的音效模型 CogSound 能根据视频自动生成音效、节奏等音乐元素，它是基于GLM-4V 的视频理解能力，能够准确识别并理解视频背后的语义和情感，在此基础上生成与之相匹配的音频内容，甚至生成复杂音效，如爆炸、水流、乐器、动物叫声、交通工具声等。

音效模型的出现能够实现视频与声音的同步创作。同时该模型在电影行业也具有广泛的应用前景，比如可以生成电影中的大规模战斗场景和灾难场景的声音，大大缩短了制作周期，降低了制作成本。

两周前，我们刚刚发布最新的 GLM-4-Voice 情感语音模型。今天，随着音效模型的加入，GLM 大模型在声音模态领域实现了人声、音效、音乐的多链路布局，基于图像、视频和声音的多模态模型矩阵由此更加完整，意味着我们在多模态和工具两个维度上都朝着 AGI 的目标迈出了一小步。

音效模型将于本月上线清言 App，与新清影一起生成有声 AI 影片。我们的理想状态是，只需一个好的创意，剩下的事 AI 都能辅助搞定，轻松将一个 idea、一张图，变成一段自带 bgm 的影片。相信这个组合能给创作者和用户带来 AI 生视频的全新体验。为此，我们特别制作了下面一支短片，其中的画面、音乐、音效和人声均由 GLM 多模态大模型生成。

当前，AI 生成视频用于影视创作仍需要多种不同的创作工具串联使用。但基于我们多模态的最新成果，实现这种一站式 AI 原生多模态工作流，这样的前景无疑是激动人心的。

原创文章，作者：王昊达，如若转载，请注明出处：http://www.damoai.com.cn/archives/7819