腾讯混元开源Hunyuan-Foley模型视频+文字可生成电影级音效

大模型之家讯 8月28日，腾讯混元开源端到端视频音效生成模型Hunyuan-Foley，用户输入视频与文字即可匹配电影级音效，打破AI视频 “只看不听” 局限，实现 “懂画面、读文字、配准声音” 的沉浸式体验。该模型依托10万小时级TV2A高质量数据集训练，能在复杂视频条件下生成音画语义对齐的音效与背景音乐，可广泛应用于短视频创作、电影制作、广告及游戏开发。目前用户可通过腾讯混元官网、GitHub、Hugging Face等平台体验或获取代码。

腾讯混元开源Hunyuan-Foley模型 视频+文字可生成电影级音效

发表回复

腾讯混元开源Hunyuan-Foley模型视频+文字可生成电影级音效