近年来,人工智能技术的快速发展改变了社交产品的交互方式,AI 对话与陪伴类应用逐渐成为用户接触人工智能的重要入口。然而,传统的人机交互模式往往受限于 " 轮次对话 " 模式,难以实现自然流畅的对话体验。在此背景下,Soul APP 创始人张璐团队近期完成了自研的端到端全双工语音通话大模型全面升级,进一步提升了 AI 语音交互的自然度与沉浸感,为用户带来更接近真实社交的体验。
从技术层面来看,此次升级后的模型采用了端到端的全双工架构,实现了包括即时响应、主动聆听和智能打断在内的实时交互功能。AI 系统能够自主决策对话时机,支持与用户同步交流,并能灵活地调节对话节奏。举例来说,在需要即时互动的场景如辩论或合唱中,AI 可以及时回复 / 配合;在日常对话中,系统会依据语境动态调整应答方式,有效避免了传统 AI 对话的生硬感。这种智能化的交互特性显著提升了沟通的自然流畅度,使得虚拟陪伴体验更接近真实人际交往。
为了让 AI 的语音交互更贴近真实人际沟通,Soul APP 张璐团队也在新模型中强化了口语化与情感化表达。传统 AI 语音往往过于机械,缺乏情绪起伏,也不符合日常语言习惯。升级后的模型不仅能够模拟笑、哭、生气等情绪,还能根据对话内容动态调整语气,使表达更具感染力。此外,AI 的发音特点也更加自然,融入了语气词、口头禅,甚至咳嗽等真实语音元素。对话内容不再局限于书面化的表达,而是更贴近日常社交语言,进一步缩小了人机交互与真实社交的差距。
此外,基于纯自回归模型架构,Soul 的新模型还能够整合人设、对话上下文及环境信息,使 AI 的回应更具个性化和场景适配性。例如,AI 可以根据对话进展调整话题,或结合特定时间节点生成更具情境感的回应。这种能力不仅提升了单次对话的质量,还为 AI 构建了更丰富的 " 数字人格 ",使其在长期互动中形成独特的故事线,增强了用户在虚拟社交中的代入感和参与感。
目前,Soul 团队正在探索将这一技术扩展至多人语音场景,AI 可基于自身判断力,识别多方语音交互的节奏和空档,选择适当时机加入讨论或组织话题,不仅支持复杂社交结构的构建,也增强了 AI 在多人生态中的适应性,进一步推动社交关系的多元化发展。
Soul APP CTO 陶明表示:" 社交是情绪价值和信息价值交换的双向关系。" 而技术的作用是让这一过程更自然、更温暖。作为较早探索 AI 社交应用的平台,Soul APP 自 2016 年上线以来便持续投入 AI 技术的研发。2020 年,Soul 启动系统的 AIGC 技术布局,并在智能对话、语音合成及 3D 虚拟人等领域取得显著进展。2023 年,Soul 推出自研语言大模型 Soul X,随后逐步上线语音生成、音乐生成等大模型能力。
随着新模型的升级,Soul APP 张璐团队也在继续优化虚拟人实时通话、AI 匹配等场景,为用户提供更智能、更沉浸的社交体验。
登录后才可以发布评论哦
打开小程序可以发布评论哦