日前,字节跳动 Seed 团队正式推出端到端同声传译模型 Seed LiveInterpret 2.0。
据了解,该模型基于全双工端到端语音生成理解框架,支持中英互译,可实时处理多人语音输入。在 CT(Continual Training)过程中,Seed 团队利用平行和非平行语音数据促使语音和文本信息对齐,并使用不同语言的语音、文本、语音到语音、文本到文本等多任务翻译数据进行持续训练,以提升模型的语音理解准确度以及语音复刻等生成能力。此后该团队使用高质量人工标注数据进行监督微调(SFT,Supervised Fine-tuning),让模型学会了更准确的翻译时机和翻译准确性,显著提升了同传效果。
据 Seed 团队方面介绍,Seed LiveInterpret 2.0 是 " 首个延迟 & 准确率接近人类水平的产品级中英语音同传系统 ",在中英同传翻译质量达到业界 SOTA 的同时,还实现了极低的语音延迟水平。据其所公布的相关数据显示,Seed LiveInterpret 2.0 在多人会议等复杂场景中英双向翻译准确率超 70%,单人演讲翻译准确率超 80%,翻译延迟可低至 2-3 秒、较传统机器同传系统降低超 60%。
值得一提的是,Seed LiveInterpret 2.0 还支持 0 样本声音复刻,只需采样实时语音信号便能提取声音特征,用说话人的音色特质实时 " 说出 " 外语,提升交流的沉浸感和亲和力。
此外,Seed LiveInterpret 2.0 还能够智能平衡翻译质量、延迟和语音输出节奏。当输入语音流畅、清晰、标准,该模型会以极快的响应速度传译;当输入语音不流畅,出现改口、重复表达时,则会选择听到合适内容后再开始传译,保证更高的翻译准确率。
据了解,目前 Seed LiveInterpret 2.0 已基于火山引擎对外开放。此外字节跳动方面透露,Ola Friend 耳机将于 8 月底接入 Seed LiveInterpret 2.0,成为首个支持该模型的智能硬件设备。
【本文图片来自网络】
登录后才可以发布评论哦
打开小程序可以发布评论哦