智能汽车就是 " 智能手机加四个轮子 " ——这一说法曾在行业内广为流传,也折射出产业一度对 " 智能 " 的理解边界:座舱里的屏幕交互被视作 " 智能 " 的全部,而驱动车辆行驶的物理系统仍被置于 " 智能 " 的框架之外。智能座舱与机械底盘,是两个彼此独立的世界。
如今,将汽车打造为物理 AI 的载体,已成为行业共识。无论是 " 蔚小理 " 等,还是吉利、长安、江淮等传统车企,从一号位的公开表述中可以清晰地看到一个共同判断:汽车将成为具身智能体,与人形机器人仅是形态之别,硬件与大脑则一脉相承。汽车产业不只是简单的 " 软件定义汽车 ",而是 "AI 重塑汽车 "。
加速国内车企达成共识的原因之一—— " 鲶鱼 " 先走了一步。在 2025 年 7 月 10 日,马斯克宣布了 Grok 即将登陆特斯拉的消息。Grok 是马斯克旗下 xAI 公司全栈自研的多模态通用人工智能大模型。基于 Grok 与 FSD(完全无人驾驶)的融合,将注重人机交互的流畅与丰富的智能座舱域和负责感知、决策、控制的智能驾驶域两者打通,实现了将用户的意图与车辆的物理行为连接。
理想汽车创始人李想对此的判断很直接:" 自动驾驶是具身智能的上半场,通用人形机器人是下半场。" 在他看来,物理世界所有的机器,只要赋予其传感器、模型和芯片——也就是眼睛、大脑和心脏——就能成为自主工作的具身智能体。
李想认为,谁能在具身智能的底层技术、芯片、模型、底盘与感知体系上建立闭环,谁就能在下一个十年占据市场主动权。

理想汽车首席技术官(CTO)谢炎与理想汽车基座模型负责人詹锟。
6 月 16 日,理想汽车首席技术官(CTO)谢炎与理想汽车基座模型负责人詹锟在接受九派财经等媒体采访时,分享了理想汽车马赫 M100 芯片、马赫 VLA 模型、3DViT 等技术研发背后的经历与判断。以下是采访实录(有删减):
【1】汽车是孵化端侧 AI 能力的最佳载体
Q:具身智能汽车是什么?与机器人有什么关系?
詹锟:我们把物理机器人分成三个关键任务。一是具身交互,我们跟它沟通、交流、思考,让它做任务规划;二是移动,自动驾驶能不能从 A 点到 B 点,无碰撞、安全、高效地到达目的地;三是操作,狭义的具身,是一个独立任务,是开放性场景,业界很多人都在探索,包括硬件、数据都是不完善的。这三个任务任意的组合,都会形成非常有价值的商业模式与价值形态。
我们的车有机会把这三点都涵盖。涵盖以后,我们想长成任何一个物理的具身本体都有非常大的机会。
Q:在具身智能汽车中座舱和智驾共用一个统一的模型底座。如何保证座舱域与智驾域不出现算力 " 打架 "?
谢炎:简单说,你可以想象一个职业司机和一个生活助手,这是两个角色,不是一个人。不是说一个人一会儿给你开车,一会儿帮你放音乐。你可以想象下面的算力和相关软硬件基础设施也是独立的,这是两套系统。我们的算力可以灵活分配给不同角色使用,但在使用时,两者不会互相干扰。
Q:为什么现在的大算力芯片方案,比如英伟达、小鹏、理想都没有做芯片级的舱驾融合,反倒是高通在低算力的骁龙 8650 上做了这件事?
谢炎:我的观点是,越往后走智驾越来越高端,舱驾融合这件事可能意义并不大。从本质上讲,舱和驾是两个独立系统。对高端的 L3 往 L4 走,智驾需要一个更高确定性的系统,内存是专属、计算资源是专属,资源不能实时切换,实时切换会加大不确定性。
如果变成越来越独占的方向,融合的价值就不大了——你只是把芯片拼在一起,但资源还是两份,并不会带来成本的降低,甚至会影响效率。因为把两个芯片放成一个芯片,晶体管数目也许不变,只是省了一次封装的成本。对中低端芯片来说这部分钱可以省,但也省不了太多。
真正的舱驾融合是舱需要的资源和驾需要的资源在物理上完全是一块,可以动态共享。就像你的笔记本跑浏览器和其他应用程序,笔记本的内存完全可以共用。现在那些舱驾融合系统,它肯定还是分开的。
Q:基座模型怎么从车扩展到其他终端?
詹锟:你说车的自动驾驶怎么迁移到机器人上?我认为这个 gap(差距)很大。切换到机器人的导航没问题,但如果切换到操作上,模型不是那么一样。或者说 Foundation(基座)只是一个非常基本的,后面一定是千差万别。
车里面包含了 Language 语言智能,这直接迁移到机器人的概率是非常大的——交互、思考、长程规划。DeepMind Robotics 团队有个 ER 模型(Gemini Robotics-ER),就是来自 Gemini 的,把语言思考上的能力从通用场景迁移到机器人上。
基座模型提供海量的数据支持、训练环境,能提供 Foundation Model(基座模型)的 baseline(基线),帮助你快速做下个任务的收敛,这是很有帮助的。所以这也是我们成立基座模型团队的原因,我们会有基座来支撑各个业务,但每个业务有自己的特点。

谢炎介绍马赫 M100 芯片。
【2】要做得比英伟达更好,用英伟达的技术路线是不可行的
Q:芯片供应商有很多,为什么要选择自研?
谢炎:四年前,我们给自己立了一个很高,却也非常合理的目标——就是自研。我和李想有一个非常一致的意见:自研不是为了证明自己有能力做,而是真正去解决问题。当时我们用英伟达和地平线,如果做不到比外购芯片更好,那做的意义不大。
Q:当时你和李想看到了什么没有解决的问题要坚持自研?
四年前我们看到的问题:一是算力成本非常高,而且会不断变高,因为车内需要越来越多的 AI 算力。二是我们希望通过自研做得更好。
Q:马赫 M100 芯片用数据流架构接替冯诺依曼架构,为什么要采用新的架构?
谢炎:我在读研究生时,我导师高光荣教授是数据流架构的奠基人之一,他在 MIT(麻省理工学院)时就做这个事。他的思想本质是:你要做的是计算,冯 · 诺依曼架构相当于帮人类做一个中介去实现计算,中间有翻译层,这个翻译帮助人类更好地去编程,但这个中介和翻译会降低效率。
如果回到计算的本质,可以把中间的翻译拿掉。当然的确很少有企业做过实践,中国也是如此。所以大家看到的机会都是一样的,关键是如何极致地解决这个问题,从第一性原理来倒推。
Q:" 极致 " 的标准是什么?
谢炎:要达到目标,背后有一套逻辑——你要做得比英伟达更好,用英伟达的技术路线是不可行的。因为英伟达比你早启动几十年,积累比你深,资源比你多几个数量级。就像你跟博尔特在 100 米赛道上,他比你早跑 2 秒,你不可能超过。你唯一的机会就是跑另外一条路径。
Q:很多车企都发布了自己的芯片,而芯片是高投入、长研发、需要验证的产品。自研芯片是不是变容易了?
谢炎:为什么这么车企都发布芯片,是不是这件事很容易?我想说其实挺不容易。做一颗芯片和做一颗领先的芯片,难度又是不一样的。有些公司做了芯片,但这颗芯片不够领先。我跟李想说过,我最担心的事不是做不出来,最糟糕的事情是做出来了但它不领先,那公司这个钱就白花了,这是我最不想看到的结局。

理想汽车 CEO 李想和马赫 M100 芯片。
现在很多公司宣布做了,但并没有真正落到车上。我认为要看几个指标:全量的车能不能用上,能不能快速上车,能不能跑最先进或最新一代模型,并且部署到所有车上。另外一个指标是能不能持续迭代。做一代芯片不说明问题,最终要做出第二代、第三代。很多公司只做了第一代,第二代就不做了。有些公司也可能买个 IP 就做了,也可以宣传自己自研。
但我们不是,因为我们连论文都可以看到,这个世界上没有第二个芯片跟我们做的一样,完全没有,甚至连这个思路都是我们提出来的,没有任何已有的 IP 可以 follow。
Q:在芯片产业链里,哪些环节是可以被加速的,哪些环节是必须要自己踩坑的?
谢炎: 有些技术是成熟的,比如偏后端的部分,有点像造房子,你找工程队,比如垒砖,是可以找到供应链帮你加速的。但是真正要做到量产、做到最领先,设计肯定要自己做,软件要自己做。如果你连软件都外包给别人的话,你不可能迭代芯片性能。
我们会越做越深。如果做芯片要持续领先的话,仅仅做芯片设计不够,很多部分要跟封装厂联合设计,要垂直整合。
【3】都说要追上 FSD 的水平,但不一定能追上
Q:要达到特斯拉 FSD V14 的效果,我们还需要做哪些工作?
詹锟:业界都说要追上 FSD 的水平,但不一定能追上。
我认为追上 FSD 有两个层面。第一是基础体验:安全感、效率、舒适度是否能达到 FSD 的同等水平。相信大家如果开过 FSD,它的安全感非常足,效率很好,舒适度很好,这是它的基本功。我不一定跑很难的路,但这些基本功可以达到这个水平。
第二是能力,这一点也很难追。FSD 有哪些能力是别人没有的?比如特斯拉会礼让特殊车辆,有极窄通行时的感知精准度,还会识别交警指挥。
为什么别人没有、只有特斯拉有?这些能力是怎么来的?我们会去做这样的改进,把这些能力提升上来。
如果这两个方面能追上 FSD V14,就是一个很厉害的结果。
Q:特斯拉的 FSD 是纯视觉方案,理想汽车会不会放弃激光雷达?
詹锟:首先,我们不是去掉了 LiDAR(激光雷达)。我们认为 LiDAR 有一个很大的优势,就是对 L3 和 L4 场景下的安全兜底。我们能不能在真正的安全底线下做得更好,这是很重要的事。毕竟纯视觉输入信息有限,而 LiDAR 在极端情况下可以帮你解决很多问题,所以 LiDAR 的作用很重要。
但 LiDAR 能不能作为前融合的主传感器,这需要我们思考。如果我想提高帧率,因为机械结构的原因,LiDAR 的帧率有物理限制,10 到 15 赫兹就到顶了,不能再高。如果想做到更高的输入频率,只能靠视觉。像特斯拉的细节反应速度就是这么来的,这是上限。所以我们必须基于纯视觉把输入上限拉高。
我们内部有很多版本的纯视觉方案,最难的是看效果怎么样,这不是拍脑袋的事,要以实践结果来证明。特斯拉是 36 赫兹的输入,输出不一定是 36 赫兹。所以我们肯定要提高帧率,接下来会先上 15 赫兹、20 赫兹。趋势就是这样,一定会以更高的帧率做输入,纯视觉带来更好效果以后,我们就会替换上来。
基于这样的判断,下半年最重要的两件事:第一,用纯视觉提高帧率,把芯片性能发挥到更大,反应速度大幅提升。第二,LiDAR 会承担很重要的数据采集环节,对 L3、L4 各种极端场景很有帮助,我们会持续提升安全,安全不能妥协。
【4】垂直整合是技术高速发展期的必然路径
Q:国内理想、华为、小鹏处于自动驾驶的第一梯队。而目前大家的差距在缩小。如果要拉大差距的话,理想会做什么事?
詹锟:虽然第一梯队之间的差距感觉变小了,但大家跟特斯拉的距离并没有缩小,特斯拉还是很强。这里要思考,我们如何建立护城河,靠什么能让别人无法快速追上。我认为要参考特斯拉。
第一,全栈才能建立真正的护城河。你的算力、芯片、基础设施能不能完全统一在自己的可控范围内,这很重要。如果你只是算法,中美之间的人才流动很快,很容易被迁移。但如果你是全栈的,迁移成本很高,也很难。
第二,下苦功夫。你愿不愿意把精力投入到苦功夫上,这是护城河。哪些是苦功夫?比如精细地洗数据。这里有很多细节,这些细节并不高大上,但这些一点一滴的细节才能形成护城河。我们也会在这方面持续加大投入,逐步把护城河建起来。
如果我们完成年底追上特斯拉的计划,是有机会脱颖而出的,也是我们一直想做的事情。
Q:全域到底解决什么问题?
谢炎:假设我们停留在 L2、L2+,以自动驾驶为例,不做垂直整合也可以。车还是人类监督,人类随时准备接管,开得慢一点、效率低一点也没关系,要求不高。但理想希望它像机器人一样独立地完成任务,那对智能要求就非常高了。不仅是脑子,对手脚的掌握、对加速、轮子、纵向横向的控制,要求都很高。
从 L2 往 L3 走的时候有很多问题,今天没有供应商可以解决。你分开采买,可以给你系统、给你线控,但加在一起,有大量的冗余,成本又高,延迟又高,出了问题还很难定位。所以要解决未知问题、想达到更高标准时,领先企业一定会选择一起做。
车的内卷就是因为同质化。要摆脱同质化,就是要做别人不好做或做不到的事。这些事如果供应商能做到,那又同质化了。

具身智能汽车示意图。
Q:全域是阶段性的最优解,还是一种必然的趋势?
谢炎:当然我不排除 20 年后技术进入平台期时,会拆分出各种供应商。但在技术还没收敛的阶段,要达到这个目标,必须自己整合。
Q:理想汽车把芯片、基座模型和智能辅助驾驶整合成统一的团队,与特斯拉 FSD、HW、xAI 团队分立相比,优势在哪?
谢炎:整合成统一的团队有几个原因:第一是,需要快速迭代。今天的 AI 发展很快,从芯片领域来说,英伟达也迭代很快,不仅自己迭代快,还不断收购公司补充自己的技术。几个团队更紧密地合作,迭代速度会上去。
第二是,需要垂直整合。理想汽车推崇构建垂直整合的竞争力。在这个时代,如果没有自己的芯片,只做自己的模型,如果遇到需要芯片和模型联合设计,才能把问题解决得更好的情况下,我们就失去了这样的机会。
当技术发展到平台期时,这时分工会很细。比如 PC(计算机)发展到 2010 年时,分工非常细了,操作系统归操作系统、应用归应用、芯片归芯片、制造归制造。但是如果技术处于高速发展期,斜率非常高时,你会发现很多公司又回过头来做整合,因为需要在技术边界上把分工打破,重新做整合。
比如英伟达之前只做芯片,现在连封装和机架都开始收购公司来做。英伟达要解决更进一步的问题时,需要上下游一起来做,如果分成多家公司来做,其实效率是非常低的,甚至是不可能的。英伟达做 Vera Rubin(AI 超级芯片平台)时,不仅是多种处理器,而且机架、散热技术、互联技术都是英伟达来做。我认为在技术快速发展的时代,这是有志于领先的公司肯定要走的一条路。当然这个投入肯定不小,很多公司不具备这种能力。
除此之外,组织规模小一点也是优势。如果需要高密度、高整合度,组织规模不能太大,如果组织规模太大,就会导致很多部门墙。这是为什么我在公司强调要保证比较小的组织规模的原因,就是想让大家合作得更紧密些。
九派财经记者 舒家奎
【来源:九派新闻】


登录后才可以发布评论哦
打开小程序可以发布评论哦