快科技 7 月 24 日消息,今日,字节跳动宣布正式发布端到端同声传译模型 Seed LiveInterpret 2.0。
据介绍,这是首个延迟 & 准确率接近人类水平的产品级中英语音同传系统,在中英同传翻译质量达到业界 SOTA 的同时,实现了极低语音延迟水平。
字节跳动表示,该模型基于全双工端到端语音生成理解框架,支持中英互译。
可实时处理多人语音输入,像人类同传译员一样以极低的延迟 " 边听边说 ",一边接收源语言语音输入,一边直接输出目标语言的翻译语音。
同时,Seed LiveInterpret 2.0 还支持 0 样本声音复刻,沟通更流畅自然。
不过,目前模型主要支持中英互译。
相比传统机器同传系统,Seed LiveInterpret 2.0 具有以下四大优势:
接近真人同传的翻译准确率
在多人会议等复杂场景中英双向翻译准确率超 70%,单人演讲翻译准确率超 80%,接近真人专业同传水平。
极低延迟的 " 边听边说 " 能力
翻译延迟可低至 2-3 秒,较传统机器同传系统降低超 60%。
零样本声音复刻
只需采样实时语音信号,便能提取声音特征,用说话人的音色特质实时 " 说出 " 外语。
智能平衡翻译质量、延迟和语音输出节奏
根据语音清晰度、流畅度、复杂程度,调整输出节奏,并适配不同语言特性。
模型测评结果显示,在语音到文本同传任务中,Seed LiveInterpret 2.0 中英互译平均翻译质量的人类评分达到 74.8(评估译文准确率,满分 100),较排名第二的基准系统(47.3 分)超出 58%。
在语音到语音任务中,业界仅 3 个翻译系统支持该能力,其中 Seed LiveInterpret 2.0 中英互译平均翻译质量达到 66.3 分(除评估译文准确率,还评估语音输出时延、语速、发音、流畅性等指标,满分 100),远超其他基准系统,达到接近专业真人同传的水平。
同时,大部分基准系统也不支持声音复刻功能。
在延迟表现上,Seed LiveInterpret 2.0 在语音到文本场景中,输出首字平均延迟仅 2.21 秒,在语音到语音场景中,输出延时仅 2.53 秒,做到了对翻译质量以及时延的均衡。
登录后才可以发布评论哦
打开小程序可以发布评论哦