智东西 昨天
腾讯开源语音数字人模型,一张照片+一段音频,生成高保真视频
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西 AI 前瞻(公众号:zhidxcomAI)

作者 | 江宇

编辑 | 漠影

智东西 AI 前瞻 5 月 28 日消息,今日,腾讯混元重磅发布并开源了其最新的语音数字人模型—— HunyuanVideo-Avatar。该模型由腾讯混元视频大模型(HunyuanVideo)及腾讯音乐天琴实验室 MuseV 技术联合研发,在 AI 视频生成领域实现了 " 一张照片、一段音频即可生成高质量唱歌或说话视频 " 的突破。

据官方介绍,HunyuanVideo-Avatar 模型的核心亮点在于其高效的生成能力和出色的口型同步效果。它不仅能根据输入的音频精准驱动人物面部表情和唇形,还能保持视频中人物身份和形象的稳定性。

一、音乐情感与唇形同步,实现高保真数字人

HunyuanVideo-Avatar 模型支持头肩、半身与全身多种景别,以及多风格、多物种与双人场景,为视频创作者提供了前所未有的创作自由。

用户只需上传人物图像与音频,模型即可自动理解图片与音频内容,例如人物所处的环境、音频所蕴含的情感等,并生成包含自然表情、唇形同步及全身动作的视频,让静态的人物图像 " 活 " 起来。

例如,上传一张女孩盘坐在森林的,身前是一团篝火的照片与一段歌曲,模型会理解到 " 一个女孩在森林空地上唱歌,她身前是一堆熊熊燃烧的篝火,火苗欢快跳跃,橘红色的火光映照在她身上,为画面增添了温暖的氛围 "。

为了实现这一突破,HunyuanVideo-Avatar 模型采用了多项创新技术,使其能够生成更自然、生动的数字人视频:

角色图像注入模块:这一模块解决了在生成视频时,如何既保持人物形象的高度一致性,又能让人物动作流畅自然的问题。它通过一种新颖的方式将人物图像的特征注入到模型中,避免了传统方法中可能出现的 " 僵硬 " 或不连贯的动作,从而显著提升了视频的整体质量。

音频情感模块(AEM):该模块能够识别音频中包含的情感信息,并将其精确地体现在数字人物的面部表情上。这意味着,如果音频表达的是 " 高兴 ",数字人就能展现出相应的快乐表情,极大增强了视频的真实感和感染力。

面部感知音频适配器(FAA):针对多人物对话场景,该模块能够 " 识别 " 并 " 锁定 " 音频所对应的具体人物面部区域。通过这种 " 面部掩码 " 技术,模型可以独立驱动不同人物的唇形和表情,确保多人对话时,每个角色都能根据自己的音频进行精准、自然的表达,避免了不同人物之间动作互相影响的问题。

HunyuanVideo-Avatar 模型提供了便捷的操作流程,用户无需专业技能即可进行数字人视频的创作。

用户可在腾讯混元官网上体验该模型的单主体功能,当前主要支持对单个数字人进行视频生成,整个操作流程非常简单。

上传一张清晰的人物照片和一段不超过 14 秒的音频,稍作等待,一段数字人视频就生成了。

值得注意的是,对于本地部署,这类 AI 视频生成模型通常对显卡有一定要求,推荐使用具备较高显存的 GPU。此外,本地部署没有视频时长限制,但生成时长与显卡性能呈线性关系,即更长的视频生成需要更强的显卡支持。

目前,在线网页版支持生成最长 14 秒的数字人视频。

二、多项指标表现出色,达到行业领先水平

综合研究团队在论文中公布的实验结果,腾讯混元 HunyuanVideo-Avatar 模型在多项关键指标上展现了卓越性能。

在主体一致性、音画同步方面,HunyuanVideo-Avatar 效果超越开闭源方案,处在业内顶尖水平;在画面动态、肢体自然度方面,效果超越开源方案,和其他闭源方案处在同一水平。

来自技术报告(

https://arxiv.org/pdf/2505.20156)

具体来看,在音画同步(Sync-C)和身份保持(IP)方面,HunyuanVideo-Avatar 在 CelebV-HQ 和 HDTF 数据集上的音画同步指标分别为 4.92 和 5.30,优于 Sonic、EchoMimic、EchoMimic-V2 和 Hallo-3 等现有方法。

在全身测试集上,该模型在音画同步方面达到 5.56,也超过了 Hallo3、Fantasy 和字节跳动旗下的 OmniHuman-1。

用户研究结果进一步表明,在身份保持(IP)和唇语同步(LS)方面,HunyuanVideo-Avatar 均获得最高评分(IP 4.84,LS 4.65),超越了 Hallo3、Fantasy 和字节跳动旗下的 OmniHuman-1。

在画面动态(MD)和肢体自然度(FBN)方面,根据消融研究(Ablation Study)的结果,HunyuanVideo-Avatar 在画面动态上达到了 4.127,在 VQ(视频质量)上达到 4.16,优于其他两种注入模块方式。

在用户研究中,HunyuanVideo-Avatar 在肢体自然度方面得分 3.88,虽然略低于字节跳动 OmniHuman-1 的 4.18,但仍优于 Hallo3 和 Fantasy。

这表明该模型在保持人物动态自然度方面,已达到与领先闭源方案相近的水平,并超越了其他开源方案。

相较于传统工具仅支持头部驱动,HunyuanVideo-Avatar 模型还支持半身或全身场景,显著提升了视频的真实感和表现力。

此外,该模型还支持多风格、多物种与多人场景,能够生成包括赛博朋克、2D 动漫、中国水墨画,以及机器人、动物等多种风格的视频,拓展了数字人技术的应用范围。

三、赋能垂直应用,丰富内容生态

HunyuanVideo-Avatar 模型适用于短视频创作、电商、广告等多种应用场景。

它可以生成人物在不同场景下的说话、对话、表演等片段,快速制作产品介绍视频或多人互动广告,有效降低制作成本,提高生产效率。

目前,HunyuanVideo-Avatar 技术已在腾讯音乐的听歌陪伴、长音频播客以及唱歌 MV 等多个场景中得到应用:

在 QQ 音乐中,用户在收听 "AI 力宏 " 歌曲时,播放器上会实时同步显示生动可爱的 AI 力宏形象。

在酷狗音乐的长音频绘本功能中,AI 生成的虚拟人形象将 " 开口说话 ",为用户讲述童话故事。

在全民 K 歌中,用户可以通过上传自己的照片,一键生成专属的唱歌 MV。

结语:数字人技术浪潮,未来已来

HunyuanVideo-Avatar 模型的发布与开源,为数字人技术领域注入了新的活力。它通过简化数字人视频内容的生成流程,展现了拓展数字内容创作边界的潜力。

随着此类技术的不断发展和应用,数字人有望在未来的社会生产和日常生活中扮演日益重要的角色,为多个领域带来新的可能性。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

腾讯 开源 ai 腾讯音乐
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论