人人都是产品经理 05-15
从智障到智能,语音交互对智能座舱的重要性
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

语音交互不占用视觉和双手,因而最适合放在智能座舱之类的场景上。这篇文章,我们来看看智能座舱中语音交互的使用效率和频率,如何进行提升。

在聊智能座舱中的语音交互技术之前,我们先来插播一条新闻:5 月 14 日,OpenAI 宣布推出 GPT-4o,据说 GPT-4o 在处理速度上提升了高达 200%,同时在价格上也实现了 50% 的下降,GPT-4o 所有功能包括视觉、联网、记忆、执行代码以及 GPT Store 等,后续将对所有用户免费开放。

不得不说,在 IA 赛道上,我们国内厂商又被甩了半步!

GPT-4o 的名称中 "o" 代表 Omni,即全能的意思,凸显了其多功能的特性,GPT-4o 是 OpenAI 为聊天机器人 ChatGPT 发布的语言模型," 可以实时对音频、视觉和文本进行推理,新模型使 ChatGPT 能够处理 50 种不同的语言,同时提高了速度和质量。可以预期,GPT-4o 的能力接入智能座舱,将会给整个用户体验带来更大的想象空间。

当前每个车企都在全力发展语音交互技术,其中重要原因是语音交互几乎不占视觉和手部资源,从而可以大幅提高驾驶安全。车机屏幕中的大量视觉信息占用驾驶员的认知资源,从而引起驾驶员的分心。其次,基于屏幕的 GUI 交互需要驾驶员通过触摸或者按键的方式进行交互,前者需要驾驶员单手离开方向盘从而有可能引起安全风险,后者则效率低下。

从智能座舱语音交互技术发展来看,提升语音交互的使用效率和频率我认为主要由以下四点决定。

一、更自然的唤醒技术

部分语音技术供应商支持 " 免唤醒 " 和 "one-shot" 技术," 免唤醒 " 是指省略唤醒词直接说 " 打开车窗 ",车窗就会直接打开。其实 " 免唤醒 " 正是用了唤醒词技术,只不过把默认唤醒词改为指令,新的唤醒词被命中后会直接执行相关指令。

"one-shot" 技术也被称为 " 唤醒连说 ",支持用户在说出唤醒词之后不作停顿,立刻说出后续需求。例如用户直接说 " 小艾同学帮我打开车窗 ",小艾同学就能直接把车窗打开。这种方式摒弃传统的一问一答形式,极大减少了用户语音操控的步骤。

二、全双工语音交互

在几年前,由于部分语音交互技术暂未成熟,用户和语音助手的交互大多属于单轮交互或多轮交互,两种交互方式带来的问题是用户无法持续地向语音助手发起指令。单轮交互是指每次语音助手被唤醒后只能完成一项对话,不管任务能否被完成,语音助手都会进入休眠状态。多轮交互是指用户可以不用多次晚醒语音助手,双方可以通过多轮交流的方式完成一个任务,当任务完成后语音助手会自动进入休眠状态。

为了让语音交互拥有更自然和更高效率的体验,近年陆续有车企推出持续监听和全双工语音交互技术。持续监听可以理解为一旦唤醒语音助手,语音助手会把麦克风一直打开。用户可以一直说,语音助手会针对用户每一句话分别做出响应。

但是持续监听的体验依然存在很多问题,因为麦克风一直打开,语音助手会把所有的声音进行聆听并做出响应。假设上一轮对话未结束,这时候语音助手听到其他人说的话,误以为这是新的语音任务,会把上一轮对话直接结束并报新的内容。

相比简单地把麦克风打开,全双工语音交互不会像持续监听一样容易被噪声打断整个对话过程。要实现以上效果,全双工语音交互需要拥有更强的抗噪能力和上下文理解能力,它能理解声音是否跟当前任务有关,并且能猜测当前任务下一轮对话是什么,这对于技术的要求非常高。

全双工语音交互可以简单地理解为真正的 " 边听边说 ",用户一旦习惯了全双工语音交互,就很难回到以上三种交互模式,所以全双工语音交互是提升语音交互的使用效率和频率的重要基础能力。

三、实现捷径

小鹏汽车 P7 在 2020 年发布的官方视频中提到驾驶员进入座舱时对语音助手说一句话,系统会自动帮助驾驶员完成十几项步骤,极大提升了人和机器的交互效率。这项体验的背后是捷径的实现,捷径是指用户可以将若干操作选项按顺序整合在一起,并赋予一个指令,当指令被响应后,涉及的操作选项按顺序会依次执行。

尽管该技术跟语音交互没有太大的关系,但从用户心智来看,这是语音交互和人工智能技术带来的便利。

四、实现 GUI 和 VUI 融合

在上述的小鹏官方视频中也提到了驾驶员可以在 23s 内完成 10 轮语音交互对话,这项体验的背后是 GUI 和 VUI 融合的实现,它能让用户说出屏幕内容并被 VUI 执行 , 加上全双工语音交互技术实现 " 可见即可说 "。

GUI 和 VUI 融合为语音交互带来的好处是有效提升语音交互的使用频率,但融合背后有些问题也需要注意后面有时间我们再聊。

本文由 @ALICS 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

语音交互 智能座舱 语音助手 聊天机器人 用户体验
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论