36氪 7小时前
智能座舱开始AI变革,长城新车要标配车端智能体
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智能辅助驾驶能力突飞猛进背后,是 AI 能力的不断涌现,它在智能座舱上同样受到热捧,甚至因为座舱对延时和算力的要求更低,应用门槛也相应降低。

特斯拉用 "Grok+FSD" 组合已经给出了惊人表现。用户除了可以体验特斯拉 FSD 的流畅领航辅助驾驶,还能和 Grok 进行了拟人、善解人意的对话,甚至用 Grok 实现模糊指令下的导航。

因此,AI 智能体上车,成为热潮。

长城汽车等国内车企率先捕捉到了这一点。今年的消费电子盛宴 CES 上,长城汽车除了展出标志性的 V8 发动机、HI4 混动技术,还发布了空间与语言智能体 ASL。

" 它是以 3D 视角感知世界的智能体,覆盖车内外场景,如人类般直观,是懂倾听、会学习、能沟通的出行伙伴。" 长城汽车 CTO 吴会肖说。

去年 12 月,长城汽车推出了智能辅助驾驶系统 VLA。今天 ASL 推出后,与 VLA 智驾系统,显然构成了长城汽车的智能化双擎。

长城汽车技术专家佘士东表示,传统座舱更关注 " 功能实现 " ——比如加热、开空调、调座椅等操作。而长城的 ASL 关注的是 " 交互升级 "," 它本质上是把人与车的关系,从人机接口 "(HMI),进化为人机共处。ASL 带来的核心体验变化,是你不再是在控制一个机器,而是在与一个智能体对话。"

以 " 打开第二排右侧座椅加热 " 为例,佘士东,在传统系统中,用户得清楚说出指令,这其实是用户在思考如何操作设备,而在智能体时代,只需说 " 帮我女儿打开座椅加热 ",甚至只说 " 让她舒服点 ",系统就能自动理解她是谁、坐在哪、当前开关状态是什么,并完成操作。

ASL1.0 是围绕自然语言下的 " 意图识别 " 和 " 主动理解 " 来构建。虽然去年长城汽车已频繁提及,但受限于工程周期,长城直到今年才正式推出这套系统。在长城汽车内部,其被称之为 Coffee OS 3.5,首批搭载车型将在 2026 年上半年(3~4 月)上市,最终交付用户大概在 5~6 月。

虽然增强了座舱交互体验,但 ASL 不只是 " 座舱 AI",而是整车级、OS 级的全栈式智能架构。

" 要实现刚才那个’给我女儿打开座椅加热’的体验,不只是语音识别那么简单。你必须打通电子电气架构、融合多模态感知、调动整车控制链路,还要建立用户画像、记忆系统、意图识别、推理能力等多维支撑,才能真正落地。" 佘士东说。

理想汽车基于自己的基座模型 MindGPT,已经推出了车端的 AI 产品理想同学,也在推动更多 agent 产品上车。而据 36 氪了解,大量没有基座模型能力的车企,都在寻找外部大模型公司进行合作,热门标的则是字节跳动旗下的豆包汽车版。

业内人士告诉 36 氪,在市面上,这类优秀的 AI 产品很多,有 Deepseek,阿里的千问,但考虑到汽车工程支持能力和 C 端交互能力,还是豆包更为适合,"Deepseek 几乎没有汽车业务,豆包基于抖音的数据训练,对消费者体验更友好。"

但在座舱里部署大模型,除了找到合适的 AI 产品,还要加强算力资源投入。不少车企在已有座舱 SOC 基础上,采用外加 AI Box 的策略,也就是额外增加一颗 AI 处理器。例如,小鹏汽车的第三颗图灵芯片,就主要负责座舱 AI 模型的计算。

而从 2026 年开始,大量车企开始采用高通的最新座舱产品骁龙 8797,可直接获取 300Tops 算力。但成本也相应提升,"8797 的域控加上音响等整套系统,成本要到万元以上。"

从特斯拉 2013 年引领座舱大屏化到今天,行业花了十多年;但 AI 智能体化的变革,行业判断只需 2~3 年,就能看到市场雏形。

发力整车 AI,又是一场资源角力赛。

以下是 36 氪等与长城汽车 CTO 吴会肖、技术专家佘士东等对话,略经编辑:

问:长城汽车去年提出的 ASL1.0,外界讨论相对较少。如今大家看到的座舱大模型 + VLA 的组合,是不是就是 ASL1.0?它与现阶段做座舱大模型的业务架构,核心区别在哪里?

佘士东:要回答这个问题,还是要回到人和车之间最基本的 " 交互 " 需求上来。传统座舱更关注 " 功能实现 " ——比如加热、开空调、调座椅等操作。但 ASL 关注的是 " 交互升级 ",它本质上是把人与车的关系,从 " 人机接口 "(HMI),进化为 " 人机共处 "。

ASL 带来的核心体验变化,是你不再是在控制一个机器,而是在与一个 " 智能体 " 对话。就像《霹雳游侠》那样,车不再是冷冰冰的设备,而是一个能理解你意图的 " 助理 " 或 " 管家 "。

比如你想帮后排右侧的孩子打开座椅加热。在传统系统中,你得清楚说出 " 打开第二排右侧座椅加热 "。这其实是你在思考如何操作设备。

而在智能体时代,你只需说 " 帮我女儿打开座椅加热 ",甚至只说 " 让她舒服点 ",系统就能自动理解她是谁、坐在哪、当前开关状态是什么,并完成操作。

ASL1.0 就是围绕这种自然语言下的 " 意图识别 " 和 " 主动理解 " 来构建的。虽然去年我们已频繁提及,但受限于工程周期,长城直到今年才正式推出这套系统。我们内部称之为 Coffee OS 3.5,首批搭载车型将在 2026 年上半年(3~4 月)上市,最终交付用户大概在 5~6 月。

问:所以 ASL1.0 的核心,其实是座舱侧 AI 应用的全面开发?

佘士东:可以这么说,但它不只是 " 座舱 AI",而是整车级、OS 级的全栈式智能架构。要实现刚才那个 " 给我女儿打开座椅加热 " 的体验,不只是语音识别那么简单。你必须打通电子电气架构、融合多模态感知、调动整车控制链路,还要建立用户画像、记忆系统、意图识别、推理能力等多维支撑,才能真正落地。

ASL1.0 本质上是一个从 0 到 1 的系统性构建工程。大模型只是 " 冰山一角 ",其下隐藏着大量底层工程投入。这也是我们为什么花了一整年,才将其准备上线。

问:这套系统的芯片算力如何分布?

佘士东:在 Coffee OS 3.5 所面向的上半年车型中,我们采用的是超频版 8295 芯片,拥有 60T 的端侧算力,但也需要液冷散热系统支撑整体稳定性。而到了 ASL2.0 阶段,随着 8797、8397 等新平台的普及,车端算力将提升到 300T+ 的级别。这样的平台能力,才能支撑多智能体在多场景下的实时推理与响应。

问:目前在智能化方向,车企的基础路线和战略方向似乎都趋于一致,长城汽车如何做出差异化?

佘士东:确实,路线 " 相似 " 在某种程度上是一个阶段性 " 必然 "。这背后是行业认知的同步和技术周期的共振。比如,去年成都车展、广州车展,走进很多展车你会发现,车内形态几乎一致:多屏分布、左边信息右边地图、中央大屏承载 APP 入口这说明,整个行业正在围绕 " 人车交互 " 建立一种共识。

但也正是在这个 " 趋同 " 过程中,我们发现了真正的差异化机会:很多所谓的 " 更好交互 ",其实还是用户主动发起—车端被动响应的传统模式,而我们进一步观察用户使用行为时发现了一个重要现象:用户其实 " 倾向于不交互 "。

为什么这么说?举个例子。四年前,我们的语音交互系统,用户平均每小时唤醒不到 0.4 次。而到了今年,已经是每小时唤醒 4~5 次,且每次唤醒后会产生二十多次连续交互。表面上看,用户好像越来越爱 " 说话 " 了,但我们深入分析后发现,这种行为更多是源于 **" 便利性提升带来的使用频率增加 ",而非 " 真实意图数量的增长 "。** 换句话说,用户真正的需求可能只有三四个,只是因为好用,所以多说了几句。

由此我们判断:当交互本身足够流畅,下一阶段的核心就不再是 " 交互 " 本身,而是 " 主动服务 "。为什么用户一上车还要调座椅、调空调、点语音、开导航……这些都可以通过智能体自动识别、自动达成,甚至静默完成。这正是我们探索 " 智能体化 " 路径的核心逻辑。

这也是吴总(吴会肖)在 CES 发布的 ASL 2.0 智能体系统的由来——之所以叫 "2.0",是因为 "1.0" 已经完成并即将量产,而行业内多数品牌的 "1.0" 可能要到 2026 年才能看到落地产品。

在 2.0 阶段,ASL 系统已经覆盖了五大智能场景:智驾出行体验、车内多人的空间娱乐与舒适交互、长途自驾游场景、健康管理与车内监测、买用养车全生命周期服务。

而 " 智能体化 " 的核心是三个关键词:一是 AIGC 生成能力,界面不再是代码 " 写死 " 的控件,而是可以根据用户、场景、习惯动态生成,实现柔性界面与可变动的服务内容。

二是真正的自然对话,就像和人交流一样,持续、顺畅、有上下文。很多用户体验过特斯拉的对话能力,起初觉得惊艳,但长时间驾驶中你会发现,它的实际表现还有很大进步空间。这说明自然语言理解与上下文管理依旧是一个关键挑战,也是我们的核心突破点。

三是主动服务的三步分级实现,相识:不只是账号识别,而是能通过摄像头系统,实现对车内每一个人的身份识别,无论是谁、坐在哪个位置,都能 " 认识你 "。相知:不仅知道你是谁,还知道你喜欢什么、习惯什么、预计接下来要干什么。相助:基于对你的了解,提前一步完成你想做的事情,甚至无需你发出指令。

所以我们说,真正的智能体,不是 " 功能的堆砌 ",而是对 " 你 " 的理解和对 " 你想要什么 " 的预判。如黄仁勋所说,AI 元年不是说说而已—— " 今年才是物理 AI 的真正起点 ",因为我们终于开始动手干了。

从特斯拉 2013 年引领座舱大屏化到今天,行业花了十多年;但 AI 智能体化的变革,我们判断只需 2~3 年,就能看到市场雏形。计划今年 6 月,我们的首款搭载 ASL 1.0 智能体系统的量产车型就将正式上市,同时我们也在努力通过 OTA 为老车型提供部分体验升级。

当然,老车型受限于芯片的端侧算力,可能会存在体验上的差异。但从今年开始的新一代车型起," 车端智能体 " 将成为新标配,主动服务将成为新的行业门槛。

问:长城汽车对于 VLA 和世界模型是怎么理解的?

吴会肖:这个话题我们内部也讨论了很多次。现在行业里对 "VLA" 和 " 世界模型 " 的定义还没有完全统一,但在我们看来,它们的核心区别是部署位置和能力侧重点不同。

VLA 是部署在端侧的模型,重点在于提升端侧的本地能力。它既能用于防御性驾驶,也能与语音控车打通,还可以通过更清晰的思维链展示其判断过程,让用户更信任车辆的决策。而 " 世界模型 " 在我们公司是指基于云端训练的大模型或大场景系统。它并不和 VLA 对立,而是互补的。开发智驾功能时,云端的训练能力和端侧的算法能力都缺一不可。

有些观点认为只要用世界模型,把它蒸馏压缩后放在端侧,也可以覆盖端侧的功能。但我们在内部的定义是,云侧的叫世界模型,端侧的叫 VLA,各有其位、各司其职。

问:有一个说法认为,VLA 的核心问题在于它依然沿用了语言链的思维模式。但在多模态趋势下,理解时空、识别手势这些场景,未必都需要转化为语言链条。也有观点认为 VLA 未来也会逐步回归多模态路径。那现在你们的 VLA 是什么形态?

吴会肖:我们现在的端侧模型并不是完全基于语言链。因为语言链的信息处理路径较长,所以我们在考虑人机交互时确实会引入语言模型,但并不是所有控车动作都经过语言模型处理,本质上也是一个多模态模型。

语言模型的路径是视觉到语言、再到执行动作,这本身是个一体化的结构。但在每个技术方案落地的过程中,都处于持续进化状态。我们未来的方向,肯定是希望能构建真正端到端的模型,减少中间兜底机制,比如安全策略或者语言链路。但要实现这一点,依然需要大量数据积累。

过去大家注重的是 " 量 ",但当基础场景已覆盖充分后,真正需要的是极端场景的数据,这决定了数据依然是核心壁垒。

问:您认为激光雷达还是必需的吗?

吴会肖:我们目前的数据采集依然较多依赖激光雷达,但从长远看,它是可以被替代的。

评论
大家都在看