你有想象过喜欢的UP主说英语的样子吗？B 站上线 AI 原声翻译功能

IT 之家 8 月 6 日消息，Bilibili Index 团队于 8 月 4 日发布博文，宣布通过自研 IndexTTS2 模型，推出 " 原声风格 " 视频配音功能，可以支持将部分中文视频翻译为外语的原声风格配音。

IT 之家此前曾介绍该功能上线，而在最新博文介绍中，官方介绍了该功能背后的 AI 模型。

该团队表示通过该自研模型，让视频人物不再是千篇一律的 " 代言人声线 "，而是像本人亲自讲外语一样自然，声音、语气、节奏，甚至个性表达都和原片几乎一致，观众可以听到 " 这个人用另一种语言在说话 "。

BILIBILI IndexTTS2 模型架构

该模型创新性地提出了一种通用于 AR 系统的 " 时间编码 " 机制，首次解决了传统 AR 模型难以精确控制语音时长的问题。这一设计在保留 AR 架构在韵律自然性、风格迁移能力、多模态扩展性等方面优势的同时，也具备了合成定长语音的能力。

团队还推出通过音色克隆、声场一致性、多声源融合等技术，解决了传统配音中声音人格缺失、字幕干扰及本地化成本高等痛点。

系统还针对多说话人场景优化说话人分割、情绪迁移与语速控制，并引入 RIVAL 对抗式强化学习框架提升翻译质量与风格适配度。

在视频层面，结合字幕擦除与基于 Diffusion 的高保真唇形同步，确保音画一致与沉浸感。B 站表示，未来将支持更多语言，并计划开源模型，推动多语言、跨模态内容全球化传播。

参考

宙世代