IT之家 08-06
你有想象过喜欢的UP主说英语的样子吗?B 站上线 AI 原声翻译功能
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 8 月 6 日消息,Bilibili Index 团队于 8 月 4 日发布博文,宣布通过自研 IndexTTS2 模型,推出 " 原声风格 " 视频配音功能,可以支持将部分中文视频翻译为外语的原声风格配音。

IT 之家此前曾介绍该功能上线,而在最新博文介绍中,官方介绍了该功能背后的 AI 模型。

该团队表示通过该自研模型,让视频人物不再是千篇一律的 " 代言人声线 ",而是像本人亲自讲外语一样自然,声音、语气、节奏,甚至个性表达都和原片几乎一致,观众可以听到 " 这个人用另一种语言在说话 "。

BILIBILI IndexTTS2 模型架构

该模型创新性地提出了一种通用于 AR 系统的 " 时间编码 " 机制,首次解决了传统 AR 模型难以精确控制语音时长的问题。这一设计在保留 AR 架构在韵律自然性、风格迁移能力、多模态扩展性等方面优势的同时,也具备了合成定长语音的能力。

团队还推出通过音色克隆、声场一致性、多声源融合等技术,解决了传统配音中声音人格缺失、字幕干扰及本地化成本高等痛点。

系统还针对多说话人场景优化说话人分割、情绪迁移与语速控制,并引入 RIVAL 对抗式强化学习框架提升翻译质量与风格适配度。

在视频层面,结合字幕擦除与基于 Diffusion 的高保真唇形同步,确保音画一致与沉浸感。B 站表示,未来将支持更多语言,并计划开源模型,推动多语言、跨模态内容全球化传播。

参考

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai it之家 ar 翻译 外语
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论