36氪汽车 6小时前
豆包上车进入2.0阶段,阿里千问同台对垒
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

去年,字节跳动凭借其深度定制的 " 豆包手机 " 引发了手机行业巨震。现在,豆包手机的产品范式也开始扩散到汽车领域," 豆包汽车 " 也正在路上。

36 氪从多位接触到项目的行业知情人士处获悉,一款基于豆包大模型深度定制的智能汽车座舱方案正处于密集开发阶段。需要明确的是,字节此举并非投身造车,而是意在通过 " 豆包 " 重塑智能座舱的交互逻辑与数字生态。

多位行业人士向 36 氪透露,豆包内部已通过组建跨部门专项组的形式推进项目落地," 预计在今年下半年出东西 "。

Agent(智能体)进入汽车座舱的趋势最早来自特斯拉。自马斯克将 xAI 研发的 Grok 大模型搬上车端后,其在自然语言交互体验上,首先实现了代际提升,同时对语言的意图理解、个性化与记忆能力等都有明显提升,还可以结合自然语言指令自动规划路线、选择 POI(兴趣点)‌ 等。

据 36 氪了解,今年 CES 期间,一位头部车企董事长看到员工在现场体验特斯拉 Grok 的视频后深受触动,立刻拍板今年要在车端部署大模型。内部团队随即被拉起,只用两个月就做出第一个版本。

"Grok+FSD 的组合 ",或者说大模型进入座舱,正在重重刺激车企神经。毕竟智驾血拼多年后,体验已经接近成熟甚至同质化,而座舱交互则一直相对沉寂,大模型登陆座舱,串联起交互、车控和服务的想象空间再次被唤醒。

" 车企几乎都在布局座舱智能体。" 行业人士透露,光今年北京车展,吉利、理想、长城等大量车企,都计划推出相应的产品。

汽车座舱智能体的技术加速点出现在 2024 年底。随着 ChatGPT 推动的 S2S(Speech-to-Speech,端到端语音)推出,语音交互延迟被大幅压缩,为座舱实时自然对话提供了基础,也为汽车行业探索座舱交互的超级智能体,提供了天时、地利。

据 36 氪独家获悉,豆包是投入最大的企业之一,其选中的合作伙伴是赛力斯。

目前,36 氪从接近项目的知情人士处进一步了解到,赛力斯为豆包投入了上亿开发费,而字节则为此项目也从豆包与火山引擎分别抽调人手,组成了项目组。

豆包之外,阿里的通义千问也在快速切入座舱 Agent 市场,其与高通 8797 深度合作,推动端侧模型上车。显然,汽车 AI 座舱的这个新战场,巨头们和车企又已经严阵以待。

「豆包组建 " 特战队 ",和赛力斯合作」

大模型上车不是新鲜事,但一年之间,产品形态已经全然不同。

去年 DeepSeek 爆火时,曾有一股大模型上车的热潮,但当时车企接入大模型大多通过云端引擎。比如豆包上车大多是通过火山引擎,后者开放 API 给车企接入,完成适配,包括比亚迪、奔驰、上汽在内多家车企都这样做。

但效果并不理想。" 我们接入后试了一下,它连基础的唤醒词都念不好。" 一位车企研发人员向 36 氪汽车说道。这也导致模型接入之后只能提升问答能力,无法实现 Agent 能力。

问题不完全在技术,还有合作机制。36 氪汽车了解到,豆包的基座模型由 To C 团队主导,而 To B 团队负责对外变现,两者之间资源与权限分离,导致车企很难对模型做深度定制,直接限制了大模型在车端的发挥空间。

为了打破这一壁垒,豆包和赛力斯启用了全新的合作模式。

36 氪独家获悉,豆包从 To C 与 To B 团队抽调成员组成 " 特战队 ";赛力斯提供整车平台与落地能力,并投入上亿元的资金支持,将新座舱交互的开发主导权交给了豆包。

双方合作在车端部署了一个约 30B 规模的模型,承担全域感知能力:视觉、语音、环境信息持续输入,实现 " 全时在线 "。云端则运行 3 到 4 个核心 Agent,负责舱驾协同、驾乘体验、舒适控制与情感交互等任务。

在此基础上,系统可以完成全双工语音对话——用户与系统的交流不再是你一句我一句,而是可以随时打断、插入、延续,接近人与人之间的自然对话。

" 端侧部署大模型的优势在于可以访问本地所有文件,对本地 App 有操作权限。" 一位座舱研发人员表示。

值得注意的是,此前汽车行业的 " 智能算力 " 主要集中在智驾领域,而在车端部署一个 30B 级别的大模型,几乎没有先例,就算智驾模型,目前行业所知的上限也在 4B 左右。

有消息人士向 36 氪透露,为了在车端运行这一超大模型,豆包找到英伟达定制了 Thor z 芯片," 针对内存与带宽进行定制优化 ",以 AI Box 的 " 外挂 " 算力盒子形式部署在车上。

公开信息现实,英伟达 2024 年 Q4 发布舱驾一体中央计算芯片 Thor,包含 Super/X/S/U/Z 等产品线,Thor Z 为入门版本,单颗算力 360Tops。

" 这更像是在车上跑一个实时的视频流系统,无视成本的尝试,但很难落到商业层面。" 一位业内人士评价。按照其测算,如果用户频繁使用语音交互、Agent 调度与视觉感知能力,单车每月的模型与算力成本可能超过 10 元,远高于现有车机服务成本。

另外,双方在工程层面也需要克服更多问题," 双方合作的是赛力斯的新车型平台,无法用鸿蒙 OS,而车企本身又不具备 OS 能力,等于重做一套车机平台,APP 几乎要重新适配,连地图都要深度定制,这是一个非常复杂且长周期的事情。" 一位业内人士说道。

车企抢滩座舱 AI,阿里、字节再对垒

豆包和赛力斯的 " 样板房 " 还在打造当中,另一边千问也在深度绑定高通 8797 平台,推动端侧大模型在新一代座舱中的规模化部署。高通 8797/8397 是 2024 年推出的第五代舱驾一体车规级芯片,对标英伟达 Thor 系列,单颗最高算力达 640TOPS。

36 氪独家获悉,千问主推的端侧模型规模在 4B 左右,包括比亚迪、广汽、理想、小鹏等车企都在接触当中。

这意味着,在座舱战场上,豆包和千问再一次迎战。千问主绑高通 8797,豆包主推英伟达的 AI BOX 形式,而英伟达也由此顺势从智驾切入座舱市场。

一位车企研发人员告诉我们,千问希望像早期斑马智行一样,通过全套能力进入车内,并保留 " 千问 " 这一品牌露出,从而掌握用户交互入口。" 但主机厂很难接受这种方案。" 该人士说道。

" 灵魂问题 " 再次摆在车企面前。如果完全依赖外部模型,它们可能在短时间内获得更好的体验,但长期来看,入口与数据都可能被抽离。如果选择自研,则需要面对另一层约束——高昂的投入、不确定的回报,以及与头部模型公司之间的能力差距。

从现状来看,已有车企选择了折中路径。一方面与外部模型公司合作引入基础能力;另一方面,在上层保留自己的交互框架与数据体系,通过 Agent 或接口的方式进行封装。

有车企人士告诉 36 氪,最终座舱 agent 的难点甚至可能不在于技术能力够不够,而是企业内部的部门墙能否顺利打通,例如原有语音团队的去留,统一 Agent 下,座舱和智驾团队的融合问题等。

一切尚未有定局,但座舱趋势已经逐渐清晰:端侧大模型上车,将在今年进入大规模验证阶段。

" 以后一定是个灵魂漫游的世界。终端上共用一个 AI,这个 AI 通过车和手机实现用户的 memory(记忆)和 contact(接触)是共享的,专属于用户个人。" 一位行业人士说道。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

赛力斯 阿里 特斯拉 字节跳动 智能座舱
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论