驱动之家 07-24
字节跳动正式发布端到端同声传译模型:准确率接近真人 3秒延迟
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 7 月 24 日消息,今日,字节跳动宣布正式发布端到端同声传译模型 Seed LiveInterpret 2.0。

据介绍,这是首个延迟 & 准确率接近人类水平的产品级中英语音同传系统,在中英同传翻译质量达到业界 SOTA 的同时,实现了极低语音延迟水平。

字节跳动表示,该模型基于全双工端到端语音生成理解框架,支持中英互译。

可实时处理多人语音输入,像人类同传译员一样以极低的延迟 " 边听边说 ",一边接收源语言语音输入,一边直接输出目标语言的翻译语音。

同时,Seed LiveInterpret 2.0 还支持 0 样本声音复刻,沟通更流畅自然。

不过,目前模型主要支持中英互译。

相比传统机器同传系统,Seed LiveInterpret 2.0 具有以下四大优势:

接近真人同传的翻译准确率

在多人会议等复杂场景中英双向翻译准确率超 70%,单人演讲翻译准确率超 80%,接近真人专业同传水平。

极低延迟的 " 边听边说 " 能力

翻译延迟可低至 2-3 秒,较传统机器同传系统降低超 60%。

零样本声音复刻

只需采样实时语音信号,便能提取声音特征,用说话人的音色特质实时 " 说出 " 外语。

智能平衡翻译质量、延迟和语音输出节奏

根据语音清晰度、流畅度、复杂程度,调整输出节奏,并适配不同语言特性。

模型测评结果显示,在语音到文本同传任务中,Seed LiveInterpret 2.0 中英互译平均翻译质量的人类评分达到 74.8(评估译文准确率,满分 100),较排名第二的基准系统(47.3 分)超出 58%。

在语音到语音任务中,业界仅 3 个翻译系统支持该能力,其中 Seed LiveInterpret 2.0 中英互译平均翻译质量达到 66.3 分(除评估译文准确率,还评估语音输出时延、语速、发音、流畅性等指标,满分 100),远超其他基准系统,达到接近专业真人同传的水平。

同时,大部分基准系统也不支持声音复刻功能。

在延迟表现上,Seed LiveInterpret 2.0 在语音到文本场景中,输出首字平均延迟仅 2.21 秒,在语音到语音场景中,输出延时仅 2.53 秒,做到了对翻译质量以及时延的均衡。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

翻译 字节跳动 外语 系统支持
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论