京东推出JoyAI-Echo长音视频生成框架，实现对话式编辑

大模型之家讯近日，京东发布JoyAI-Echo长音视频生成框架，攻克了长视频生成中角色身份不一致、音色突变、生成缓慢三大行业难题。该框架通过跨模态音视频记忆库保持多镜头角色一致性，结合DMD技术实现7.5倍推理加速，并首创Director Agent实现自然语言对话式编辑，无需为修改局部镜头重跑整条视频。目前，JoyAI-Echo的代码与权重已全部开源，项目主页和GitHub仓库已上线。