WAIC 现场,这个展台被观众挤爆了!
凑近一瞧,好家伙,展台里摆满了各式新奇的 "AI 玩具 ",它们有个共同点——
全都能实时与玩家流畅对话,延迟极低。
比如这款 "AI 毛球 ",活脱脱一个电子宠物,不仅能实时理解你的话语,还能默默陪伴左右,提供满满的情绪价值:
此外,现场还有数字人全息仓、能对话的卡皮巴拉等,赚足了观众眼球:
其实它们有个共同的 " 幕后推手 ",这些产品的实时对话能力,全都依托于声网的对话式 AI 引擎。
更值得一提的是,声网刚宣布,他们的对话式 AI 引擎已完成全新升级:
新增选择性注意力锁定功能,让它在嘈杂会场也能精准捕捉你的声音,实现 " 只听你说 ";同时新增视觉理解能力;还能与主流数字人方案无缝集成。
一句话概括,新版对话式 AI 引擎,变得更 " 耳聪目明 " 了。
要知道,声网是做 RTE(Real Time Engagement,实时互动)技术起家的,在音视频处理和实时通信领域深耕多年,现在转身做多模态 AI 交互,属实是 " 专业对口 ",一出手就有狠活。
这次对话式 AI 引擎升级背后到底带来了哪些 AI 交互新体验?接下来就为你详细揭秘。
三大升级,AI 听得准看得清
量子位拿到 demo app,直接体验了这波升级。支持事先调整预设:
听力开挂:嘈杂环境里只听你的话
使用对话式 AI 第一步,自然是考验它能否从各种干扰中准确识别出用户的指令,这直接决定了 AI 对话体验的好坏。
声网新版对话式 AI 引擎的第一个杀手锏,就是选择性注意力锁定功能。
刚开始对话时屏幕上就会提醒用户 " 在对话初期大声、清晰地说话 ",由此它就会将你的声音锁定。
在后续对话中面对环境人声和噪声干扰,它能够根据锁定用户的声纹特征精准识别,屏蔽 95% 的干扰。即使在复杂的声音环境中,它也能准确捕捉到你的每一个指令。
来看实测对比,当用户在对话初期没有大声清晰地说话,导致声音未被锁定时,AI 常会受到周围的环境人声、电视声、音乐声干扰,出现误识别或响应延迟的情况。
(PS:我们同时播放电视剧、歌曲、短视频作为干扰。)
而开启选择性注意力锁定后,即使旁边有其他人在交谈或音频播放,AI 依然能够精准锁定目标用户的声音。
询问旅游规划等需要它长时间回答的问题,它也不会因为环境干扰音而终止或是暂停对话:
视觉理解,实时看图识物
如果说声音识别是 AI 的 " 耳朵 ",那么视觉理解就是 AI 的 " 眼睛 "。而最新版引擎为 AI 也实现了这样的能力,可以实时看图识物。
就像和真人打电话一样,打开摄像头即可使用:
我们向它展示了一张房间平面草图,它不仅能够正确识别出这是什么,还能准确指出设计中的结构特点,额外提出了一些注意事项。
当我们展示一张技术报告中的图表时,它同样能够理解其中逻辑,并用自然语言解释。
测试中我们还发现,声网新版对话式 AI 引擎具有很强的上下文感知能力,当我们连续提问几个问题后,它能够理解问题之间的关联性,并给出连贯的分析。
数字人支持,对话更有 " 人情味 "
第三个重要升级是数字人功能。
据介绍,新版引擎支持与主流数字人方案的无缝集成,包括商汤数字人等业界领先方案。
在预设中即可挑选配置:
在与数字人的对话中,它不仅能够准确响应语音指令,还能通过面部表情和肢体语言传达更丰富的信息。
当我们询问复杂问题时,数字人会露出思考的表情;在解释概念时,还会配合手势动作,整个交互过程自然流畅。
例如询问 " 出门露营要带些什么东西?有什么注意事项?" 数字人立马绘声绘色讲解:
这种情感同步让人机交互体验更加自然真实。
总之,声网此次对其对话式 AI 引擎的升级,通过融合多模态打造了更加沉浸式的 AI 实时交互体验,而这也正是其技术实力的集中展现。
接下来划重点:这种能力可轻松接入 DeepSeek 等任意大模型。只要与 OpenAI 接口协议兼容,就能原生支持,且接入仅需两行代码。
并且价格更是低至每分钟 0.098 元,还不到一毛钱。
这么多眼熟的应用,背后竟都有它
实际上,声网首版对话式 AI 引擎早在今年 3 月份就上线了,凭借效果优、开发接入极简、灵活性强,已在各行各业落地。
你可能都没发现,我们日常熟知的不少 AI 应用,背后都有它。
在教育领域,豆神 AI 近期宣布将推出 AI 超拟人多对一直播课,课程采用真人教师与 AI 教师 " 双师 " 协作体系,实现千人千面的定制化训练与辅导,精准契合不同学生的学习需求。
在声网对话式 AI 引擎的加持下,AI 教师能够在 AI 实时训练体系、课堂答疑、情境创设、AI 实时判卷等环节中,全程与学生展开低延时、自然流畅的对话交互。
声网技术支撑不仅保障了 AI 语音交互的实时性和稳定性,更让学生在与 AI 教师的互动中获得如真人般自然的学习体验。
智能硬件领域,更是令人眼前一亮。
我们前面所展示 "AI 毛球 " 是 Robopoet 珞博智能所打造的首款 AI 情感陪伴产品 " 芙崽 Fuzozo"。
传统陪伴机器人常给人冷冰冰的机械感,难以让用户产生情感联结。而芙崽不同,用户每日互动中可与芙崽积累亲密度,由此孕育出的每只芙崽都拥有独特性格,与用户形成独一无二的专属情感羁绊。
通过与声网的合作,芙崽 AI 交互的实时性和稳定性得到大幅优化。与此同时,声网的端到端解决方案,也从软硬件全方位为珞博智能提供支持。
同样令人印象深刻的,还有 Enabot(赋之科技)的智能家庭陪伴机器人 EBO Air 2 Plus。
Enabot 与声网合作,依托声网的对话式 AI 引擎技术,EBO 能精准识别用户的打断意图,即便周围环境嘈杂,也能锁定对话人声,确保识别准确;同时,借助声网高质量的实时音视频服务,它还支持双向视频通话,用户无论身处全球何地,都能与家人实现零距离视频交流。
除此之外,无论是 MiniMax Chat、星野的语音对话功能,还是智谱清言的视频通话功能、商汤商量的实时音视频交互,背后统统都有声网的技术支撑。
从娱乐聊天到知识问答,声网的技术方案已覆盖广泛场景。
这些成功应用案例不仅证明了声网对话式 AI 引擎在不同场景下的适应性和实用性,验证了其技术的可靠性,也为更多企业提供了可借鉴的落地经验。
那么为何大家都选择了声网?大概是源于声网多年的 RTE 基因。
用 RTE 基因重塑 AI 交互体验
近期国内外 AI 厂商持续加大多模态领域的投入,融合视觉、语音等能力的 AI 应用不断涌现,再加上 WAIC 现场的种种迹象,一个趋势非常之明显:
单一模态的 AI 交互正在成为历史,多模态 AI 交互已是明确的未来方向。
用户不再满足于只能 " 听 " 或只能 " 说 " 的 AI,更期待的是能够像人类一样,通过视觉、听觉等多种感官实时理解世界的智能体。
作为实时互动技术领域的领军企业,声网在多模态 AI 交互方面天然具有技术优势。多年来在 RTE 领域的深耕,为其积累了丰富的音视频处理、低延迟传输、多媒体融合等核心技术能力。
更关键的是,声网做多模态 AI 交互不是技术的简单叠加,而是始终致力于提升对话式 AI 的交互体验。每一个功能升级背后,都指向同一个目标:
让 AI 对话更具真实感和自然感。
无论是选择性注意力锁定带来的精准语音识别,还是视觉理解赋予 AI 的观察能力,抑或是数字人支持创造的情感化交互,这些功能都解决了用户在实际使用中遇到的真实痛点。
这种以用户体验为核心的产品思路,可能比单纯追求技术指标更能决定产品的市场竞争力。
可以预见,随着多模态 AI 应用的普及,那些能够提供低延迟、高稳定性、自然交互体验的技术平台,将在下一轮竞争中占据更加有利的位置。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦