盖世汽车 04-23
合众新能源:AI大模型赋能智能座舱
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

我今天给大家分享的主题,分 4 各部分。首先是思想的准备;其次先把容易的做了;再次大模型带来的座舱交互的新体验;最后当企业内部大模型来时,如何实现高效的开发。

2024 年 4 月 18 日,在第二届汽车人工智能大会上,合众新能源汽车股份有限公司软件开发总工程师蔡勇围绕上述四点分享了他的思考。

其中关于 " 什么是最容易的事情?" 蔡勇表示,座舱里语音最容易被大模型赋能,语音已经走进用户的用车日常。哪吒语音主打自然、全面、聪颖,这正满足用户千人千面的个性化需要。接下来,大模型将助力语音交互上一个台阶,比如 AI 智能体将带来新的人机关系。 

蔡      勇 | 合众新能源汽车股份有限公司软件开发总工程师

以下为演讲内容整理:

AI大模型思想的准备

合众新能源汽车股份有限公司,旗下汽车品牌为哪吒,品牌标识凝聚着我们的初心——致力于为人民造车。我们坚守的价值观是 " 科技平权 ",即运用科技力量,将高端车型的体验普及至更为亲民的价位,让广大民众得以共享。目前,我公司热销的主力车型包括哪吒 V、哪吒 U、哪吒 S、哪吒 GT、哪吒 X 以及即将于 2024 年四月发布的中大型 SUV ——哪吒 L,该车在业内已引起广泛关注。

在探讨主题思想时,我绘制了四张图示来说明一下大模型的影响力。发动机的诞生并非仅在于使马车加速,尽管其初现时,人们或许首先想到的是将其应用于马车之上。然而,发动机的真正意义在于催生了汽车,进而带动了高速公路的建设、加油站的出现、收费体系的形成、路网保洁的兴起,以及道路基础设施及其相关工程机械等很多行业的蓬勃发展。因此,发动机的发明并非单纯提升马车速度,而是催生了一个全新的生态系统。 

图源:合众新能源

我们不禁思考,大模型的出现是否也会引领一个繁荣的生态?在公司内部,我常常将大模型比作发动机或电厂。从 "powered by AI" 的角度看,大模型能够实现文本创作、图片生成、图片阅读、视频创作等多种功能。然而,如果我们的思维转向 "everything for AI",则其所承担的任务将更为广泛。例如,汽车企业的数字化进程是否完善?有人提及利用大模型优化售前获客与售后知识问答,但在此之前,我们必须确保知识库的数字化与管理已臻完善。若这些基础尚未稳固,大模型如何有效赋能?我再举一些例子,现在的车机上的操作系统如何使用大模型的来临;当前公司内部 UIUE 的设计流程如何变化,如何让 AI 智能体适应 UIUE 工程师的输出结果;车机端的 NPU 如何适应大模型在边缘计算的落地;当 github coplite 这类工具在程序员中普及时,公司内部程序员的分工和组织结构如何适应。

先把容易的做了

虽然大模型会带来巨大的生态变化,但是我们不能等到生态成熟了再做事情,我们要把最容易入手的事情先做了。那么,什么是最容易着手的领域呢?座舱内的语音系统是最易受到大模型赋能的领域。回顾车载语音的发展历程,我们不难发现其巨大的潜力。从 2010 年语音输入法的推出,到 2016 年语音助手的全车装载,再到 2019 年全场景连续对话功能的推出,每一次进步都为用户带来了更为便捷的体验。然而,当前行业内仍面临着挑战,我们期待大模型能为这一领域带来新的突破。 

至于我们哪吒语音的特点,可概括为自然、全面与聪颖。我们的语音系统能够清晰识别并理解用户的指令,响应速度迅捷。我们采用了先进的边说边理解技术,并在业内首创两字唤醒词,为用户带来更为便自然操作体验。我们坚守一个理念:只要功能安全可行,就应全面开放给用户。因此,我们取消了倒车时禁用语音的限制,并实现了与车内 70 多个功能点的对接,包括但不限于转向助力、单踏板模式、舒适模式、省电模式、节能模式、车窗控制、空调温度调节、抬头显示、氛围灯调节、尾门控制、天窗控制及座椅调节等。此外,我们还积极与各大生态伙伴对接,如爱奇艺、QQ 音乐、腾讯视频等,以满足用户的多元化需求。我们深知,只有当我们的技术与用户的日常生活紧密相连时,才能真正实现其价值。

在业内广泛讨论的 " 千人千面 " 理念中,我们已付诸实践,尽管目前仍依赖于工程师的精细调整,但已取得显著进展。例如,当副驾乘客的目光聚焦于副驾屏幕并表达听歌的意愿时,系统会智能地在副驾屏幕为其播放音乐;若其目光转向中控屏并请求观看视频,系统则会在中控屏优先展示视频内容。这种眼球追踪与场景适应技术的结合,极大地提升了用户体验。

在导航目的地识别方面,我们面临着相似发音地名难以区分的挑战,如张江的金科中心与虹桥的晶科中心。为应对这一难题,我们引入了 "T+1 自适应增强 " 技术。只要用户曾发起过对特定地点的导航,系统便会记录该信息。次日当用户再次用语音要求导航至该地点时,系统会优先识别并导航至用户曾选择的目的地,实现了个性化的场景适应。

如何评价语音系统是否做的好?在与公司的讨论中,我们达成共识,将使用量作为衡量标准。当用户选择使用语音功能时,这意味着语音操作相比传统 UI 更为便捷。我们的数据显示,意图使用量已超过 800 个,显示出广泛且深入的用户需求。

虽然语音各家都做得不错,但是也碰到很多难题,比如语义理解的能力,实际端到端在 90% 左右,而且难以继续增长;在语音对接第三方应用时,要对接的第三方应用越来越多,导致语音团队的工作负荷越来越大。

然而,大模型技术的出现为我们提供了解决这些问题的新途径。首先,大模型具有强大的语义理解能力,能够更准确地识别并理解用户的意图。其次,大模型搭配 agent 技术能够自动调用车控模块和生态 SDK,从而减轻语音团队的工作负担。最后,大模型的智能性使其能够根据场景变化灵活调整,避免出现不符合实际情况的千人千面。

还有一点,我观察到目前存在一种趋势,即大模型能够结合车辆手册互联网搜索,给用户带来解答车辆知识和百科知识的能力,进而拓宽传统语音车控、导航、娱乐三大功能的边界。

AI智能体

AI 智能体,简而言之,就是具备自我感知、自我决策及自我执行能力的实体。在图示中,小人向 Agent 传达了一个指令:" 如果明天下雨,请为我带上伞。" 智能体首先通过调用传感器和天气信息网站进行感知,判断明天的天气情况。在作出决策后,它将通过调用相应的工具,如具身体,完成指令。 

尽管 AI 智能体的概念在哲学领域早已提出,且在 1980 年代的 AI 领域也有所涉及,但长期未有实质性进展。然而,随着大模型的出现,特别是其调用工具和决策能力,使得 AI 智能体的实现成为可能,引发了广泛的关注和研究。目前,众多开源项目和创业公司纷纷投身于 AI 智能体的研发。

AI 智能体的出现将带来新型的人机交互关系。在未来,人们只需向 Agent 表达需求,如心情不佳时希望得到安慰,Agent 可能会播放一首合适的歌曲。在此过程中,用户无需等待,可以继续进行其他操作,如调节车窗、导航等。未来,触屏和按键等交互方式可能会逐渐减少,取而代之的是通过语音与智能体进行交互,形成如导航智能体、音乐智能体等多样化的智能体形态。这些智能体将依赖于多模态信息、个性化记忆以及底层软件的支持。

此外,AI 智能体还将对操作系统产生深远影响。传统的以 UI 为主的操作系统,如安卓,可能将面临变革。随着 AI 智能体的引入,操作系统需要适应新的交互方式和智能体的调用需求。在系统架构上,可能需要增加新的组件,以支持智能体的调用、上下文管理、存储管理等功能。

对于企业而言,建立高效的开发平台至关重要。我们公司并不计划发布特定的大模型,而是致力于将现有的大模型优势最大化,构建完善的工具链。与自动驾驶领域类似,我们关注工具链的成熟度和数据回流的效率。我们期望建立一个模型广场或模型动物园,对外提供统一的 API 接口,同时定期评估市场上的大模型并集成到我们的平台中,确保上层应用开发的稳定性和独立性。

在工具链的构建上,我们将关注数据的预处理、Prompt 工程、知识库管理、Agent 编排以及模型选取等环节。特别是 Prompt 工程,它类似于一种特殊的编程方式,需要确保编程的准确性和测试方法的准确性。最终,我们将基于这一平台,结合自研、采购及合作自研等多种方式,推动 AI 智能体技术的发展和应用。

(以上内容来自合众新能源汽车股份有限公司软件开发总工程师蔡勇于 2024 年 4 月 17 日 -18 日在第二届汽车人工智能大会发表的《AI 大模型赋能智能座舱》主题演讲。)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

哪吒 发动机 ai 新能源汽车 合众新能源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论