驱动之家 01-20
豆包实时语音大模型正式上线!端到端语音对话 情商智商双高
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 1 月 20 日消息,今日,字节跳动豆包大模型团队宣布,豆包实时语音大模型今日正式上线,并在豆包 App 全量开放,将 App 升级至 7.2.0 版本即可体验。

据介绍,豆包实时语音大模型是一款语音理解和生成一体化的模型,实现了端到端语音对话。

相比传统级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性,号称 " 情商智商双高 "。

该模型是真正意义上的端到端语音系统,主要面向中文语境和场景(可进行英语对话,暂不支持多语种)。

豆包表示,依托于语音和语义联合建模,豆包实时语音大模型拥有丰富表现力,呈现出接近真人的语音表达水准。

通过学习角色语音和情感特点,模型具备强大讲故事能力,在对话或内容演绎中,可生动切换成不同角色 / 状态,配合不同情绪表达,增强交互趣味性和沉浸感。

联合建模后,模型涌现出超出预期的指令理解、声音扮演和声音控制能力。

比如,目前模型部分方言和口音,主要源自于 Pretrain 阶段数据泛化,而非针对性训练。

豆包实时语音大模型输出语音表现力高度逼近真人,包括类人的副语言特征(如语气词、停顿思考等),同时赋予模型实时联网功能,能根据问题,动态获取最新信息,对时效问题给到精准、及时的回应。

从豆包发布的技术展示来看,该模型语音语气自然度和情绪饱满度逼近真人,对话风格更加拟人,情感理解更加深刻,对用户的情绪做到较好承接。

豆包大模型团队也坦言,现阶段的模型主要支持中文,其他语种尚未较好支持,中文范围内,模型也仅支持小部分方言和地方口音的理解和表达。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

智商 字节跳动 英语
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论