大模型之家讯 8月28日,腾讯混元开源端到端视频音效生成模型Hunyuan-Foley,用户输入视频与文字即可匹配电影级音效,打破AI视频 “只看不听” 局限,实现 “懂画面、读文字、配准声音” 的沉浸式体验。该模型依托10万小时级TV2A高质量数据集训练,能在复杂视频条件下生成音画语义对齐的音效与背景音乐,可广泛应用于短视频创作、电影制作、广告及游戏开发。目前用户可通过腾讯混元官网、GitHub、Hugging Face等平台体验或获取代码。
大模型之家讯 8月28日,腾讯混元开源端到端视频音效生成模型Hunyuan-Foley,用户输入视频与文字即可匹配电影级音效,打破AI视频 “只看不听” 局限,实现 “懂画面、读文字、配准声音” 的沉浸式体验。该模型依托10万小时级TV2A高质量数据集训练,能在复杂视频条件下生成音画语义对齐的音效与背景音乐,可广泛应用于短视频创作、电影制作、广告及游戏开发。目前用户可通过腾讯混元官网、GitHub、Hugging Face等平台体验或获取代码。