科创板日报 01-20
豆包重磅更新!语音对话“更像人” AI应用端或迎来变革
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

《科创板日报》1 月 20 日讯(编辑 宋子乔) 1 月 20 日,豆包实时语音大模型正式推出。

据介绍,豆包实时语音大模型是一款语音理解和生成一体化的模型,实现了端到端语音对话,主要面向中文语境和场景(可进行英语对话,暂不支持多语种;中文范围内,模型也仅支持小部分方言和地方口音的理解和表达,仍有较大进步空间)。

依托于语音和语义联合建模,该模型呈现出接近真人的语音表达水准,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性。

打败 GPT-4o?

OpenAI 的最新大模型 GPT-4o 的高级语音功能于 2025 年 1 月开始全量推出。

值得注意的是,豆包实时语音大模型直接对标 GPT-4o。豆包大模型团队介绍称,在外部真实众测中,模型整体满意度较 GPT-4o 有明显优势,主要体现在:

豆包大模型的语音语气自然度和情绪饱满度远高于后者,尤其情商层面,模型在情感理解、情感承接以及情感表达等方面也取得显著进展,能较为准确地捕捉、回应人类情感信息;

豆包模型贴合中国用户实际需求,发布即上线,有能力直接服务亿万用户,而非停留于演示 Demo 层面。

整体满意度(以 5 分为满分)方面,豆包实时语音大模型评分为 4.36,GPT-4o 为 3.18。其中,50% 的测试者对豆包实时语音大模型表现打出满分。

如何实现?

低延时流畅交互、拟人化的语气和情绪反馈,是分辨人与机器的两大重要特征。豆包大模型团队如何让语音大模型不再 " 一听就是 AI"?

其团队研发出了一套端到端框架,深度融合语音与文本模态。该框架面向语音生成和理解进行统一建模,最终实现多模态输入和输出效果。

在预训练(Pretrain)阶段,团队对各模态交织数据进行深入训练,精准捕捉并高效压缩海量语音信息,通过 Scaling,最大程度实现语音与文本能力深度融合和能力涌现。

在后训练阶段,团队使用了高质量数据与 RL 算法,进一步提供模型高情商对话能力与安全性,并在 " 智商 " 与 " 情商 " 之间寻求平衡。

更真实的情感陪伴——实时语音 AI 的价值

实时语音 AI 的价值体现在哪里?影响最直接是 AI 情感陪伴。

《科创板日报》实测发现,豆包的语音大模型不仅能感受到你的情感,还自带情绪和情感,可以随时打断对话,互动更加拟人。

真人级语音对话,能提供更为亲和的交互体验和情感价值,AI 不再呈现冰冷的 " 人机感 ",其考验的是 AI 的 " 人性化 " 程度,是人类迈向 AGI(通用人工智能)的关键里程碑。

可以说,豆包在实时语音交互上的进步展现的是国产 AI 软件的进步,有望为 AI 端侧硬件开辟更广阔的空间,如 AI 语音助手硬件以及 AI 玩具等。

目前 AI 产品呈现多模态趋势,最为常见的是语音 + 文字的多模态交互,伴随 Transformer 架构对信息处理能力的提升,浙商证券预计,2025 年开始会涌现更多综合性多模态交互,将深度结合数据集、文本、音频、视频等实现更高维度的人机交互层级,这对硬件侧主控芯片提出了更多更高的需求。该机构表示,产业链重点标的包括恒玄科技、中科蓝讯、乐鑫科技、星宸科技、瑞芯微、炬芯科技、全志科技等。

而 AI 玩具可以视作具备面部识别、语音识别、自然语言处理等技术,能够与用户对话的机器人。随着豆包语音大模型为代表的语言模型不断演进,AI 玩具的功能将不仅限于对话,而且能够满足个性化、情感需求。广发证券表示,AI 玩具赛道兼具教育与陪伴属性,是具有真实需求的 AI 硬件落地方向,该机构关注实丰文化、汤姆猫、奥飞娱乐、上海电影等。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 科创板 智商 准确 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论