IT之家 07-24
字节跳动发布端到端同声传译模型 Seed LiveInterpret 2.0
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 7 月 24 日消息,今天,字节跳动 Seed 团队正式发布端到端同声传译模型 Seed LiveInterpret 2.0,是首个延迟 & 准确率接近人类水平的产品级中英语音同传系统。

据官方介绍,它基于全双工端到端语音生成理解框架,支持中英互译,可实时处理多人语音输入,像人类同传译员一样以极低的延迟 " 边听边说 ",一边接收源语言语音输入,一边直接输出目标语言的翻译语音。同时,Seed LiveInterpret 2.0 还支持 0 样本声音复刻,让沟通更加流畅自然。

在测试中,可以观察到,Seed LiveInterpret 2.0 面对 40 秒的大段中文表达,能够低延迟地丝滑输出同款音色的英语翻译。此外,Seed LiveInterpret 2.0 还能快速学习音色。

相比传统机器同传系统,Seed LiveInterpret 2.0 模型具备以下优势:

接近真人同传的翻译准确率。精准的语音理解能力保障了翻译准确度,在多人会议等复杂场景中英双向翻译准确率超 70%,单人演讲翻译准确率超 80%,接近真人专业同传水平。

极低延迟的 " 边听边说 " 能力。采用全双工语音理解生成框架,翻译延迟可低至 2-3 秒,较传统机器同传系统降低超 60%,实现了真正的 " 边听边说 " 翻译。

零样本声音复刻,音色真实自然。只需采样实时语音信号,便能提取声音特征,用说话人的音色特质实时 " 说出 " 外语,提升交流的沉浸感和亲和力。

智能平衡翻译质量、延迟和语音输出节奏。可根据语音清晰度、流畅度、复杂程度,调整输出节奏,并适配不同语言特性。面对超长信息,依然能保证传译语音节奏的自然流畅。

IT 之家注意到,目前 Seed LiveInterpret 2.0 技术报告已公布,模型基于火山引擎对外开放。此外,Ola Friend 耳机也将在 8 月底接入 Seed LiveInterpret 2.0,成为首个支持该模型的智能硬件设备。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

翻译 字节跳动 it之家 对外开放 外语
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论