三易生活 04-26
阿里云自研AI肖像视频生成框架已接入通义App
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

日前,阿里云方面宣布自研 AI 肖像视频生成框架 "EMO"(Emote Portrait Alive)已接入通义 App,并向所有用户免费开放。

据了解,EMO 框架可以用于生成 " 对口型 " 视频,用户只需输入人物照片及音频(说话、唱歌、rap 均可),就能够让照片中的人物开口说出相关音频,并支持中英韩等多种语言。而生成视频的最终长度,则取决于输入音频的长度。

据悉,EMO 基于英伟达的 Audio2Video 扩散模型打造,使用了超过 250 个小时的专业视频和超过 1.5 亿张图像进行训练,相关训练分为图像预训练、视频训练和速度层训练三个阶段。其中在图像预训练阶段,网络以单帧图像为输入进行训练;在视频训练阶段,引入时间模块和音频层,处理连续帧;速度层训练则专注于调整角色头部的移动速度和频率。

目前,通义 App 已首批上线超 80 个 EMO 模板,包括热门歌曲《上春山》、《野狼 Disco》,以及网络热梗 " 钵钵鸡 "、" 回手掏 " 等,用户任选一款模板,然后上传一张肖像照片就能合成演戏、唱歌视频。但需要注意的是,目前通义 App 暂未开放自定义音频功能,即用户暂时无法自行上传音频内容进行合成。

据了解,通义 App 是阿里云多项 AI 技术的重要落地和应用场景。例如此前曾走红的全民舞王应用,便是基于阿里通义实验室自研的 Animate Anyone 算法打造,并集成多项创新技术,包括引入 ReferenceNet 用于捕捉和保留原图像信息,可高度还原人物、表情及服装细节,还使用了高效的 Pose Guider 姿态引导器 ,确保动作的精准可控,并通过时序生成模块保障视频帧之间的连贯流畅性等。

此外基于通义千问大模型,近期通义 App 还陆续推出了超长文档解析、AI 编码助手、AI 会议助手等免费实用功能。

【本文图片来自网络】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

ai 阿里云 英伟达 通义千问
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论