IT之家 06-03
京东开源JoyAI-Echo长音视频生成框架,宣称“进入全球第一梯队”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 6 月 3 日消息,京东今日宣布推出 JoyAI-Echo 长音视频生成框架,号称直接解决行业头疼已久的三大难题 —— 角色易崩、声音乱变、生成缓慢。同时还实现了 " 对话式编辑 " 功能,不用再为改一个镜头重跑整条视频。

京东官方表示,JoyAI-Echo 的发布,标志着京东在长视频生成领域进入全球第一梯队

据介绍,JoyAI-Echo 框架内置了一个专门的记忆库,能在多镜头生成过程中,持续保存并调用角色的外观特征和说话人音色信息。实测结果显示,长达 5 分钟的视频里,角色身份、视觉形象和声音音色都能保持高度一致,再也不会出现 " 同一个人演着演着变成另一个人 " 的尴尬情况。

团队提出了记忆驱动后训练流程,结合 SFT、跨模态 RLHF 和 Distribution Matching Distillation(DMD)技术,不仅提升了生成质量,还实现了推理加速,DMD 一项技术就带来约 7.5 倍的速度提升。JoyAI-Echo 还加入了智能 " 导演助理 " —— Director Agent,支持自然语言说需求,自动拆分成剧本、角色、场景和镜头。

另外,JoyAI-Echo 还配套了专门的实时超分模块,通过单步超分就能生成高分辨率视频和精细化音频,并支持两档分辨率提升:736 × 1280 → 1152 × 1920 和 736 × 1280 → 1472 × 2560。

IT 之家附项目页和 GitHub 代码仓库如下:

GitHub:https://github.com/jd-opensource/JoyAI-Echo

项目主页:https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

京东 it之家 分辨率 导演
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论