佘士东：座舱同质化率超95% “人-智-体”关系正在重构

4 月 11 日 -12 日，以 " 推进新能源汽车智能化、绿色化、融合化、国际化发展 " 为主题的智能电动汽车发展高层论坛（2026）在北京国家会议中心举行。来自汽车、能源、交通、人工智能等领域的代表，围绕全球及中国新能源汽车发展态势、汽车消费促进与扩大、智能网联汽车演进方向、人工智能与汽车深度融合、新能源汽车出海及全球协作、商用车电动化与智能化转型等议题，展开了深入交流与探讨。

在 12 日的 AI+ 汽车论坛上，长城汽车智能化产品副总经理佘士东发表了主题演讲。他表示，当前智能电动汽车的座舱体验正在陷入 " 千篇一律 " 的尴尬境地，从 2024 年到 2025 年，各大车展上展出的新车座舱高度雷同：3D 车模、壁纸桌面、分层导航、Dock 栏、丰富的 APP 生态几乎如出一辙。长城将市面上 200 多款交互界面喂给大模型后，得出的结论是相似度超过 95%，行业已进入 " 非常痛苦的局面 "，车企做新功能时感觉 " 无米下锅 "。

然而，尽管同质化严重，但大模型的深入应用还是为行业带来了新空间。佘士东回顾了大模型上车的演进路径，并提出行业正从传统的 " 人 - 机交互 " 转向 " 人 - 智 - 体 " 三方服务关系，以智能体为中枢，连接用户与车控、生态、信息服务，本质上是让机器服务人而非人适应机器。

这一转变带来了两个核心变化，首先是人与 " 智 " 的关系。过去用户使用语音需要精准下达指令，比如 " 打开空调 " 或 " 打开二排右侧座椅按摩 "，本质上仍是人在学习机器的语言。现在用户只需陈述感受或事实，比如 " 我冷了 "" 我的孩子有点出汗 " 或 " 孩子睡着了 "，智能体就成了一个能思考、能回忆的类人对象。

更重要的是，一旦智能体拥有了认知和记忆能力，就能实现全时主动服务——不是基于预设规则的场景触发，而是通过端侧模型 " 看到、听到、感到 " 甚至 " 想到 "，比如记住用户前天说过的话，在合适时机主动提供服务。不过佘士东也坦言，车上交互频率很低，长城近千万用户数据显示平均每小时人车交互仅 4 到 5 次，因此主动服务必须精准克制。

其次是 " 智 " 与 " 体 " 的关系。座舱开发范式正在发生根本变化，从设计交互界面和功能聚合，转向把所有能力 " 原子化 " 以便大模型直接调用。在车控层面，智能体需要从 " 认位置 " 进化到 " 认人 "；在生态层面，长城已接入 6 家音乐软件、4 家视频软件、2 家地图软件，并通过小程序实现百万级服务直接上车，面对极大丰富的生态，用户不再需要知道用哪个软件或学习层级菜单，只需通过对话，智能体就会在后台完成一切，实现 " 无 app 化 " 的体验。此外，泛聊天正在成为核心服务方式，在 AI 加持下问答的边界已经消失。

佘士东预测，未来车上的大屏可能只是服务的可视化窗口，人与车的主要沟通方式将变成对话。事实上，过去两年用户通过物理按键操作屏幕的次数已经降了一个数量级，从单次旅程二三十次变为个位数。

这些理念已在长城实现工程落地。首款实现 " 原生 AI 舱驾智能体 " 的 V9X 车型将于下周开启预售，后续共有 11 款车型会陆续搭载 " 人 - 智 - 体 " 交互体验。佘士东最后用 " 场外的马拉松 " 来比喻这一进程，认为目前仍处于 " 相识、相知 " 的初级阶段，智能体刚刚开始认识用户，工程师把基础知识喂给了模型，这些关于 " 提供更美好生活方式 " 的课题，行业尚未真正开始探索，但长城正在这条路上跑出自己的节奏。

以下为嘉宾演讲实录：

2026 年 4 月 11 日，智能电动汽车发展高层论坛 ( 2026 ) 正式召开。长城汽车智能化产品副总经理佘士东在会上发表主旨演讲，请根据下面的速记内容，提炼出一些核心观点整理成文章，内容一定要和速记核对准确，不能有信息错误：

大家上午好！长城今年是第 36 年，整个汽车行业年轻化趋势非常大，估计在场的应该有很多都没有长城汽车的年龄大。

我们今天虽然是一个年龄很大的车厂，但是在整个 AI 领域，也是有一些自己的实践和思考。今天借这个机会，跟大家做一个分享。

我今天分享的主题是 "AIUI：‘人 - 智 - 体’座舱智能体交互新范式 "。

最近这两年，2024、2025 年的车展上陆续都能看到座舱是高度同质化的，上了车之后，基本上是一个 3D 的车，壁纸桌面、导航和智驾分层的桌面都是高度同质化的，Dock 栏也放在同样的位置，也有非常丰富的 APP 生态，高度同质化。我们把市面上能采集到的 200 多款不同的交互界面喂大模型之后，大模型给出的结论 " 相似度 95% 以上 "，其实已经进入了一个非常痛苦的局面。车厂在做新东西的时候发现无米下锅，已经进入这样一个状态。

但是我们又看到一个机会，这个机会也开始陆续大模型上车，大家也在探索一些从原来的人机交互的时代向新的面向于人服务的时代，产生了一个巨大的机会变化，也看到了很多有突破性的特别有创意的一些点子。

大模型逐渐深入应用。从最早 2022、2023 年，我们也把大模型引入到车里，其实那个时候大家都知道，让大模型聊天、回答问题，包括 DeepSeek 上车，我们称之为后置式大模型的生成内容，无论是生成壁纸、路径规划，都是非常初级的阶段。今年上半年，包括去年的下半年开始出现了所谓的智能体的语音，也就是可以开始做更广义的用户意图理解，包括上下文场景的理解，还有所谓记忆的引入，开始有了语音智能体，能更好地理解你想做什么。再往后我们也看到了一些自然对话伴随的智能体，无论是特斯拉在北美的 Grok，以及今年春晚争抢比较严重的，在抢夺所谓大模型新的路口，我们在车上也看到了类似这样的趋势，也在判断车上将来会不会大模型的语音化作为新的入口。再往后更多会有一些主动服务的产品。这是整个行业大概的趋势。

这个过程中，跟行业里交流时发现一个核心的趋势变化，从原来的人 - 机交互，人去使用车上的这些功能，车给你反馈各种各样的信息，到人智体这样一个三方服务的过程。其实原来人机交互的时代，也不是没有做，大家都听过车上有冰箱、彩电、大沙发，但是可能很多人去思考为什么车上的非司机类的服务变得越来越多，大家开始越来越多地关注副驾屏，关注后排的舒适性，关注后排的娱乐性，这也是整个车从原来的司机跟车之间的人机交互逐渐演变为乘客全乘员跟车之间的交互，这个其实在整个行业里我们发现它已经走了三年，从 2023 到 2026 年，基本上行业里边大概是走这样一个过程，市面上会越来越多地看到大六座的车型，包括冰箱、彩电、大沙发，越来越多的豪华性的配置上车，其实整体来看基本上还处于一个人机交互的时代。我们看到这样一个趋势，就是整个智能体接入之后，在座各位电脑上很多都已经装到了不同形态的龙虾，车载领域也会有这样一个产品形态出现，所谓 " 人 - 智 - 体 " 三方的关系。一旦车上开始介入了智能体作为中间的一个中介，它就能实现这样一个体验，我们识别到可能重点是两个，当然长城汽车在这一点上已经做了很多工程落地，包括具体车型的开发，已经不是一个理念层的发现，而是实战上确实通过人 - 智 - 体这样一个三方的服务，带来一些具体体验的提升。

整个 " 人 - 智 - 体 " 服务的关系，从原来的人 - 机分成了人和智能体，当然这个体更多的车上就是指车控以及生态，还有用户可能希望通过聊天等获取一些服务，这是三方的关系。我们又看到人跟智之间核心的关系也产生了一些变化，从原来的人去适应屏幕上的这些功能按键，点击这些物理按键，操作这些功能，甚至现在市面上大多数的语音仍然是人机交互系统，我们在操作一个功能的时候也会非常直白地脑子里去想我要打开空调，我要打开二排右侧座椅的按摩功能，它仍然是一个人在学习机器的过程。自然对话的服务产生的变化是人会回归到陈述一个自己的感受，陈述一个事实或者直接说自己的意图。简单来说他想打开空调不会说 " 打开空调 "，可能直接说 " 我冷了 "，或者是 " 我的孩子有点出汗 " 或者是 " 我孩子睡着了 " 等一系列的方式，会把整个接收这个语音的对象变成一个能考虑问题、能回忆的一个类人的对象来对话，而不是把它当作机器，被动地去接受我们的命令。这是一部分人 - 智之间的关系产生的变化。智能体一旦拥有了这些东西，逐渐地在跟你对话的过程中，观察你使用车的过程，它就会倾向于进行全时的主动服务。当然所谓的 " 全时主动服务 " 并不是根据原来的场景引擎或者是各种任务编排等功能，并不是简单地去根据车上的一些状态做触发，而是它真的能通过端侧的认知模型，能看到、听到、感到，并且还有一个比较特殊的，也是最近突然间爆发的 Hi Agent，它突然能想到你前天说过的话，我今天是不是应该给你提供对应的服务，或者是你曾经跟我交流过什么，今天是不是对应的这个服务要产生触发的一个机会了。所以，全时的主动服务前置一定是全时的认知，这是我们识别到的在 " 人 - 智 - 体 " 三方关系里最先改变的其实是人跟智之间交互的关系。而从整个行业来看，基本上这个趋势也是非常明确的，大家都在通过一系列大模型上车，端侧算力部署，实现人跟智之间的关系。但是马上就会遇到一个问题，我们都知道车上的交互或者是交流实际上比较稀疏，长城汽车近千万用户的车联网数据，我们平均分析了一下，大概一个小时人跟车的交互是 4 到 5 次，是非常稀疏的使用过程。即使引入了新的主动服务，它也不会时不时就给用户蹦出来一个东西，然后非常高频地进行服务。

对于智跟体之间的关系，怎么样把车上所有的这些功能做一个有效的整合？我们看了一下非常宏观的行业分析，从最早的 90 年代的 DOS 系统，包括后边的 Windows 和 GUI 以及后边的 SOA，给机器提供这些访问接口，以及最近通过短短一年的时间抛出来一堆新的概念 MCP、A2A、SKILL、CLI，每一个概念出来大家都认为它很快要火了，为什么这里边出现越来越多回到了起点一样的感觉呢？是因为也是发现了原来的人跟机之间交互的形式也在逐渐地演变为中间的智能体跟具体身体之间的交互，这里边也会产生比较大的变化，在车上也会陆陆续续看到有很多 Skills，以及以 CRI 命令行的方式提供的一系列的接口。所以，人机交互越来越友好的趋势开始到让机器能够直接使用机器的过程，座舱的开发范式也在不断变化，原来可能考虑我们要设置音乐界面，要考虑交互的层级，要考虑车控里功能的聚合，到后边可能更多地是考虑怎么样把所有的这些能力原子化，可被直接调用，包括可被直接的大模型访问，访问他们的源数据，访问他们的能力。这个上面的变化，也是整个座舱的开发上的一个巨大的变化。

在具体的 " 体 " 的服务的类别上，我们也产生了一些细微的变化。从最直接的车控上面，用户从原来可能直接希望实现功能直接的一一映射，比如我说打开空调，调到多少度，它就应该去执行。逐渐变为用户越来越少地描述精准的命令，而是更模糊地表达自己的意图。比如车窗起雾、前面玻璃脏了、我看不到后边的车等，这种陈述客观事实的方式，就需要智能体自己了解车的相关信息，当然知道车的这个东西并不只是知道车的状态，里边还包括车的相关的知识。比如我们上车之后说 " 我冷了 "，实际上车上有方向盘加热、座椅加热，甚至一些车还有不同位置的环保式的加热，比如门板的扶手等都有一些加热能力，还有空调的加热。当用户说 " 冷了 " 的时候，到底它应该先开哪个、后开哪个，以及在不同的情况下是否还需要关掉别的？这种情况下就需要知道车上所有的这些零部件相关的一些性能参数。比如方向盘可能加热是最快的，它十几秒左右就能让你感觉到手已经不冷，但是你的手背可能是冷的，你的脚可能是冷的，它会有一个渐进式地加热过程，这都需要对于整个车的配置、性能和功能参数等这些有非常强的一个了解能力和理解能力，才能实现真正的智车。认人也不是原来的只用考虑坐在副驾、后排这样位置的差分，我们希望带来的体验更多的是引入了真正记忆到这个人是谁。

举个简单的例子，大家开智能化的汽车有一个日常的体感，比如车上坐了三个人，你会坐在后排右侧，如果你想打开座椅加热会怎么描述这个功能呢？可能脑子里会想，" 小魏同学，帮我打开二排右侧座椅加热 "。它脑子里会有一个复杂的功能对照的思考过程，我们希望它能演变成一个方式是什么呢？直接说给 mongo 或者说给豆豆打开座椅加热，会变成由智能体理解这个人坐在哪里，他使用什么样的方式，你也许看到了他的车窗已经处于打开的状态，是不是先帮她打开车窗，以及出风口的方向是不是对准了这个人，她的身高是不是都介入了一个思考的过程。所以，在认人的过程里，也是从原来的功能指向性开始变相面向于人服务的过程。

当然记事可能是用户对于整个智能体更高的一个要求，比如他会提昨天我听了那个歌，或者是上周我们去的那个地方，或者是昨天我们聊的那个东西，他都会作为一个控制车的上下文或者是背景知识，来更好地提供这样的服务和体验。

我们发现大模型有自身的学习能力，包括它自己在成长的一个过程。比如你介绍了这是吴先生，如果你用对应的一个话术说，给我吴哥或者是给我哥们儿打开这样一个功能 "，它也是能够对应到一个人。所以在语音技术的体验上，完全可以做到回归到用户自身，完全忽略掉车上到底有什么功能和配置的过程里边。包括它也会结合车上不同的亮点的配置，实现一个最优的体验，不是只是你让它打开空调的时候它给你开空调，而是同时也会让你的背部、臀部以及手部变得更温暖的一些方式，它也会同时给你提供这些对应的服务。

第二个 " 体 " 的服务是生态。这里的 " 生态 " 在车上已经非常丰富了。长城汽车接了六家不同的音乐软件，四家视频软件、两家地图软件，包括支持全栈的手侧互联，我们在座的所有人的手机在车上都能实现手侧互联。行业大家一直说在卷，到底卷什么？其实就是堆料，软件行业的堆料已经做到了基本上大家能够在手机上使用到的生态在车上都能看到。更夸张的是我们在车上实现小程序，它的规模不是像以前一样可能上二三十个对应的生活服务，而是直接百万级的服务直接上车。在极大化丰富的生态情况下，用户怎么找到他真正想要的？比如他想播一个歌，能不能找到那个最合适的给他播放音乐的人，包括找到到底哪个买的会员，在哪个里边推荐的时候这个音乐软件更能了解他个性化的偏好，他日常经常使用哪些这个生态，其实都会找到一些变化。包括这些生态提供的方式，原来可能更多的是一些界面，你点开这个应用，一级级操作下去，然后用搜索框、分类列表来使用。但是我们发现可能在很快的一个未来，就会变成影音的这些内容，基本上都是用对话的方式来提供，不再需要关注一个 app 到底长什么样，也不需要学习这个 app 的功能和层级的这些方式，它会采用你说的话，直接帮你播放，帮你打开。所以，我们提出来 " 流式影音 " 的服务方式，采用问答的生活服务的方式，当然它也可以接续后边支付的能力，比如大家在车上会使用到点餐、点外卖、点咖啡，但是整个过程中，用户看到实际的数据并不是他一直在探索新的东西，用户实际上在生活里可能点咖啡经常点生椰拿铁，他习惯性的内容实际上已经作为车里获取生态服务的一个方式。我们怎么样在几百个不同的咖啡饮品提供的供应商的小程序或者是生态服务里找到用户最需要用的那个，可能是未来生态的一个重要的解决方案，怎么样以智能体的方式来统筹生态，实现无 app 化的目标。

第三，我们识别到整个车上的核心服务，其实就是泛聊天，当然这个聊天不是简单的 " 你问我答 "，而是它真的能够帮你通过对话的方式解决一些问题。比如在座的一些可能接触过语音行业，语音里边在后台接一两百个信源非常正常，用户可能会问股票的价格、新闻、最近茅台多少钱，以及可能会问类似的，但是在大模型加持或者是 AI 加持的情况下，我们发现用户在问答的边界已经没有了，他在整个问答的过程中，会随时跳出你给他限定的功能服务的范围，他会随时打破自己的上下文，可能聊着音乐，他马上会说你帮我播一下，可能会想知道关于唱歌这个人的一些八卦，包括他前两天是不是有些新闻，包括他在这个过程中也会直接说我挺喜欢这个人，就会形成一些记忆的内容，也可能产生一些常识上的东西，比如之前说了《明月几时有》这样一首歌，反过来可能问这首诗谁写的，以及这个诗人的历史介绍，包括他所在的朝代等等。将来可能会用聊天的方式，它极有可能会作为用户的一个核心提供服务的方式，并且也会作为极大化的服务承载方式，包括车控服务的能力，以及生态的服务能力，将来有可能都会以聊天的形式来提供服务，车上的大屏可能只是一个服务的可视化的窗口，比如你想显示歌词，想显示具体屏幕影音的东西，或者你想看一个更大的地图，它可能是作为一个屏幕的载体，而原有的人机交互，人抬起手来去找某一个功能的事可能极大化地缩减。我们之前看到过去两年的数据，用户用物理按键操作整个屏幕的过程已经降了一个数量级，基本上从原来一辆车交互 2 到 30 次，现在使用语音的过程可能变成个位数，整个过程中 " 人 - 智 - 体 " 核心的服务将来以对话式的方式或者是聊天的方式，极有可能成为一个最主要的跟车之间的交流或者沟通的方式。

除了能自然地聊天之外，其实它也能够在使用车上的这些生态的服务，讲一些多媒体的不同的 app 里边的内容，也能结合导航、智驾来操纵整个这辆车上具体的一些体验。也就是整个智能体在使用这些功能的时候，已经完全地智能体服务化，而用户不需要在中间过多地介入，非常像我们在使用小龙虾的体验，它自己在进化自己，自己在执行自己（的命令），人只需要把自己的意图表达进去就可以了。灯光的这些功能都是在场景下自己去发现并且生成出来的，当然一些原子的功能肯定是通过 SOA 或者是 Skill 的方式打开，它自己会发现夜间的场景，会发现它需要转弯，会发现它需要过窄道。

整个这个体验我们也是用在了长城 11 款车，车型刚刚准备发布，下周会进行预售发布会，V9X 车型，后边一共 11 款车会陆续搭载类似 " 人 - 智 - 体 " 交互的体验，我们整个执行的过程中发现，它就跟我们在场外看到的马拉松一样，刚刚开始，我们现在能做到的也只是相识、相知的阶段，也就是我刚开始认识人，刚开始知道它非常基础的一些工程师知道的东西，喂给了这个模型，至于更后边的比如怎么样能给用户提供更美好的生活方式，你在推荐餐厅的时候不只是常去推荐一个人均 60、70 块钱的餐厅，是不是偶尔在节假日的时候也能推荐一个人均两三百甚至四五百的，让你家人可以过一个浪漫周末的东西，更多地去考虑给你带来一些更美好的生活方式，这样的一些过程，其实现阶段还没有开始，我们也在探索对应的一些实现的方式。包括更多的桌端的介入，比如耳机的介入、家庭陪伴机器人的介入、智能眼镜的介入，是不是可以做全时的智能体的跟随，后边需要走很长一段路。长城汽车可能未来会陆续地推出三个平台来做对应的整个智能体的演进，下周会发布 VIS，后边还有归元 A、归元 Q 等等不同平台，搭载不同算力的端侧性能。我们第一代，也是我们认为今年行业里首个能够实现原生 AI 舱驾的智能体的车型，大家在楼下可以实车体验一下。

更多原创热点汽车资讯可关注 58 汽车微信号：wubache

宙世代

一起剪

相关标签