科技快讯网 08-05
深耕AI社交赛道,Soul 张璐率团队升级全双工语音通话大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

当人工智能的浪潮席卷而来,社交领域正经历着前所未有的深刻变革。从智能推荐好友到生成式内容互动,AI 技术正以多元方式介入人们的社交行为,重塑着连接的形态与深度。在这场变革中,作为较早思考将 AI 应用于社交的互联网平台,Soul App 自 2016 年正式上线起,便以积极姿态拥抱这一技术趋势。日前,Soul 张璐带领团队,全面升级端到端全双工语音通话大模型,为用户打造更具温度、更赋能情绪价值的交互体验,成为社交领域中 AI 应用的探索者与实践者。

具体来看,此次全面升级的 AI 能力在以下方面实现了新的突破:

全双工语音交互,AI 具备自主决策反应能力

新模型支持响应(Response)、倾听(Listen)与打断(Interrupt)流式预测,这意味着 AI 能够自主判断发言时机,从而实现完全端到端的全双工交互。这种交互模式打破了传统人机对话的单向或半双向限制,让 AI 与用户可以像真实交流那样灵活互动:既能够同时发声,比如展开激烈辩论、模拟日常拌嘴甚至协同合唱;也能在恰当的时刻打断用户发言,或是自然地接受用户的打断;更能主动打破沉默,适时发起新的话题。

当 AI 具备了这种自主决策反应能力,在边听边说的过程中掌握互动时机与内容的 " 主动性 ",不仅会极大提升人机对话的自然度,还能在较长时间、多轮次的持续交流中,让用户获得如同与真人互动般的沉浸体验。

日常表达口语化和情感化,情绪更鲜明的人机交互

为了让 AI 更具 " 真人感 ",新模型在情绪表达、发音特点、对话内容等多维度实现了综合指标的提升,使其更接近现实日常表达。例如,在情绪表达方面,新模型不仅涵盖笑、哭、生气等基础情绪特色,更实现了声音情绪的明显起伏,且能随着对话的推进同步变化,让情绪传递更连贯自然。在发音特点上,融入了语气词、结巴、常用口头禅、咳嗽等日常语音元素,打破了 AI 发音的刻板感。此外,AI 对话的内容更加口语化、社交化,而非书面语言。

时间、事件、环境感知能力,互动更具沉浸感

Soul 的新模型基于纯自回归模型架构,实现了文本和音频生成(Unified Model)的统一。借助这一架构,模型能充分发挥大语言模型强大的学习能力,让 AI 发言深度整合人设、时间、环境及上下文对话等信息。这意味着,具备感知、理解能力的 AI 能够更好塑造 " 数字人格 ",形成丰富的 AI 故事线,让人机交互真正成为 " 情感与信息的双向交流 "。

Soul 新升级的端到端全双工通话大模型即将开启站内内测,后续将陆续落地于虚拟人实时通话、AI 匹配等 1V1 互动场景。同时,Soul 张璐团队正探索将该能力应用于多人互动场景,让 AI 能在多人对话中,精准把握说话时机,适时加入交流、延展话题,推动多元关系网络的构建。

此次全双工语音通话大模型的升级,无疑是 AI 社交领域的一次重要突破。它通过对 AI 互动能力的极大提升,让原本略显生硬的人机交互被赋予了真切的在场感与饱满的情感温度,为用户带来了更具沉浸感的社交体验。Soul 张璐将继续带领团队深耕 AI 社交领域,以持续的技术创新为驱动力,不断探索 AI 与社交融合的更多可能。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai soul 张璐 人工智能
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论