把一段音频、一张照片输入 AI 模型,就能让图中人物开口唱歌说话,让奥黛丽赫本唱《上春山》、陶俑仕女说英文 RAP、爱因斯坦说中文段子。不久前,这款名为 EMO 的模型因为阿里通义实验室的一篇论文火遍海内外,模型的产品化进程也广受关注。4 月 25 日,EMO 终于上线通义 APP,开放给所有用户免费使用。
打开通义 APP,进入 " 全民舞台 " 频道,就可来到 EMO 产品页面 " 全民唱演 "。在歌曲、热梗、表情包中任选一款模板,上传肖像照片,EMO 随即就能合成视频。
通义 APP 首批上线了 80 多个 EMO 模板,包括热门歌曲《上春山》《野狼 disco》等,网络热梗 " 钵钵鸡 "" 回手掏 " 等。目前通义 APP 暂不开放用户自定义音频,用户只能选择 APP 预置的音频来生成视频。
EMO 是通义实验室研发的 AI 模型,其背后的肖像说话(Talking Head)技术是当前大热的 AIGC 领域。EMO 之前的 Talking Head 技术都需针对人脸、人头或者身体部分做 3D 建模,通义实验室在业界率先提出了弱控制设计,无需建模就可驱动肖像开口说话,不仅降低视频生成成本,还大幅提升了视频生成质量。EMO 学习并编码了人类表达情绪的能力,能将音频内容和人物的表情、嘴型匹配,还能把音频的语气特征和情绪色彩反映到人物微表情上。
2 月底,通义实验室公布相关论文,EMO 随之成为继 SORA 之后最受关注的 AI 模型之一。现在,通义 APP 让所有人都可免费体验前沿模型的创造力。未来,EMO 技术有望应用于数字人、数字教育、影视制作、虚拟陪伴、电商直播等场景。
通义 APP 近期爆款频出,现象级应用 " 全民舞王 " 曾在社交平台掀起 " 兵马俑跳科目三 "" 金毛跳舞 " 的热潮,全民舞王背后的模型 Animate Anyone 也出自通义实验室。近期,通义 APP 还陆续推出了超长文档解析、AI 编码助手、AI 会议助手等免费实用功能。通义大模型正在成为越来越多用户的超级 AI 助手。
雷峰网
登录后才可以发布评论哦
打开小程序可以发布评论哦