前苹果、Meta、OpenAI 硬件负责人:键盘后的 AI 会饱和,下一个前沿是物理世界

Caitlin Kalinowski 是硅谷资深的硬件领导者之一,横跨苹果、Meta、OpenAI 三家顶级硬件团队。在这场最新访谈中,他提出了几个极具前瞻性的判断:很多人认为 VR 没有成为主流消费产品,但过去十年 VR 所积累的空间定位、SLAM、深度感知等能力,实际上正在成为机器人与自动驾驶的底层基础设施;与此同时,一场由 AI 数据中心需求引发的 " 存储器争夺战 " 已经开始,HBM、DRAM 等关键内存正被大模型训练和推理快速吞噬,消费硬件供应链将持续承压,他甚至建议硬件创业公司现在就提前锁定内存供应。而在更深层的供应链里,一个被严重低估的瓶颈是磁铁与电机,过去 25 年,从稀土材料、磁体加工到电机制造,整条产业链几乎全部迁移至亚洲,而电机是机器人关节的核心,磁铁又是电机的核心,缺少这一环,整个机器人产业都可能被卡住。访谈最后,他也首次较为完整地解释了自己离开 OpenAI 的原因:并非不认可 AI 的价值,而是 OpenAI 在国防合作上的推进速度、治理方式与边界定义,已经超出了他个人能够接受的范围。以下是对谈全文。
1. VR 没成,但它没白做
主持人: VR 投了那么多钱,Meta 甚至都把公司名字改了,苹果也做了 Vision Pro。硬件明明很惊艳,为什么还是没真正爆发?
Caitlin: 如果今天回头看,我会觉得 VR 的价值,不只是 " 做成一个消费品品类 ",而是它帮整个行业提前解决了一批关键问题:比如怎么在空间里定位,怎么把虚拟世界和现实世界对齐,怎么用摄像头做 SLAM,怎么理解深度,怎么让机器知道 " 自己在空间中的位置 "。这些东西当然对 VR 有用,但现在你会发现,它们在机器人上同样关键:机器人要知道自己怎么运动、离周围物体有多远、怎么感知空间;如果人戴着头显去远程操控机器人,本质上用的还是那一套技术。所以在我看来,VR 更像是一段更长技术弧线里的一个阶段。它没变成大众消费主流,不代表它失败了。它只是把技术往前推了一大步。VR 最大的问题之一,是它把你的脸遮住了,社交属性天然受损。人和人之间的交流,很大一部分靠面部和眼神完成。你把这个切断了,产品就很难成为一个日常主流设备。这也是为什么我更相信 AR 眼镜代表未来的一部分。人并不适合一直低头看手机。如果你能在不切断社交连接的前提下获取信息,这个方向就更自然。

主持人: 你觉得未来会是 AR 眼镜吗?
Caitlin: 我相信 AR 眼镜会是未来的一部分。但问题在于,很多关键零部件还没准备好。以 Orion 为例,它用了 waveguide(波导)和 microLED,这些技术现在的量产良率还不够,成本也太高。所以方向没错,问题在于时机还没到。另一个难题是交互。你在公共空间里戴着眼镜,怎么输入?怎么安静地、自然地和它沟通?这些问题还没完全解出来。但从长期看,我确实相信一种 " 默认关闭、需要时再点亮 " 的显示设备,会成为未来计算平台的一部分。
2. 为什么机器人和硬件突然又热了
主持人: 现在大家突然都开始谈机器人、谈硬件了。为什么?
Caitlin: 我在旧金山 AI 圈里看到的一个明显变化是:很多人开始意识到,AI 在数字世界里的能力提升太快了。今天它还主要在键盘后面工作,但再往前走,大家会越来越清楚地看到一个趋势——数字世界里的问题,总有一天会相对接近饱和。一旦这件事发生,下一块真正巨大的增量市场,就是物理世界。也就是:机器人、制造、工业化、传感层、自动化、真实世界中的操作能力。所以现在无论是大模型公司、大厂,还是创业公司,都在同时往这个方向看,因为他们都意识到:下一个前沿,不在屏幕里,而在现实世界里。
主持人: 很多软件公司觉得,未来要做硬件,结果一做就懵了。硬件最反直觉的难点是什么?
Caitlin: 我经常这样跟软件工程师解释:软件是你写完代码,可以每天编译、每天迭代、每天修 bug。但硬件不是。硬件的 " 编译 ",可能一共就只有四五次。每一次大版本打样、开模、试产,都是一次 " 编译 "。等你真正进入量产,那就是最后一次。之后没法像软件一样在线更新硬件本体。这意味着硬件团队必须更保守,也必须在前期做更多验证。因为你最后一旦量产,东西就已经出去了,不能再改。而且硬件还有一个软件人不太直觉的问题:零件公差。一个产品卖到几百万台时,你面对的不是 " 标准零件 ",而是 " 分布在不同公差范围内的零件 "。最小的这个零件,要和最大的那个零件装在一起,产品还得正常工作。所以硬件团队真正玩的,是一个很残酷的游戏:你得在最后一次 " 编译 " 之前,把最后那 0.5% 的异常情况也想清楚。否则量产良率、返修率、利润,都会出问题。
主持人: 人形机器人现在很热。你觉得离大规模进入现实世界还有多远?
Caitlin: 在我看来,现在的人形机器人仍然主要是 " 高级原型机 ",还没有到真正大规模部署的时候。一个核心问题是安全。如果一个很大、很强的人形机器人,直接在人的身边工作,我们必须先有足够的数据证明它是安全的。这件事不是一句 " 动作准不准 " 就能解决的。你得考虑机器人手臂本身的运动能量,也要考虑电机和关节带来的冲击;还得考虑接触面是不是柔软、是否可压缩——因为这些都会影响它碰到人时的冲击力。所以更轻、更软、把质量往身体中心收的人形机器人,会天然更安全一些。现在有些团队已经在往这个方向设计了。我觉得它们还没 ready。下一阶段应该是:在原型可行之后,继续把它做得更便宜、更好制造、更高良率、更安全。这个过程很长,不是一两次 demo 就能跨过去的。
3. 供应链卡在磁铁和电机上
主持人: 那真正阻碍机器人规模化落地的是什么?
Caitlin: 第一件事就是供应链。机器人不是一个抽象的软件系统,它身上的每一个零件都来自现实世界的某个地方。这些零件未来可能会变得更难拿、更受限制、更难在美国本土完成装配。现在很多人都在说,把机器人生产搬回美国。但问题是,美国现在连成熟的执行器公司都不够多。
主持人: 执行器就是电机?

Caitlin: 对,本质上就是把电能转成机械运动的那部分。机器人胳膊、手指、头部、腿部的运动,都离不开它。
主持人: 你一直在强调执行器、磁铁这些基础部件。为什么它们这么关键?
Caitlin: 可以把这个链条想成几层:先是原材料,比如磁体;然后是磁体加工;再往上是把磁体集成到执行器里;然后是把执行器集成到机器人和各种子系统里。过去 25 年,这整条链条的很多能力,逐步外移到了中国、日本、韩国这些地方。亚洲的强项一直是规模制造和低成本生产。今天全球硬件业的很多能力,就是在这样的分工中形成的。但如果你想让供应链更安全,就必须重新建立这些层级上的独立能力。
主持人: 但为什么偏偏是磁铁?
Caitlin: 因为很多电机的基本原理就依赖磁场。你可以把它简单理解成:一圈极性排列的磁体,配合电流变化,驱动转子旋转。无论是无人机的旋翼,还是机器人的关节,本质上都离不开这类基础技术。所以如果你拿不到磁体,执行器就会受影响;拿不到执行器,机器人就很难做出来。它是很底层的瓶颈。
主持人: 你怎么看这种供应链和地缘政治之间的关系?
Caitlin: 我觉得美国必须重新工业化,尤其是从国家安全角度看。你永远不知道未来会发生什么,也不能默认今天的盟友会永远保持同样关系。如果下一轮疫情、战争或者别的系统性冲击来了,而你连原材料加工、核心零件生产、规模制造的能力都没有,那你就会非常被动。所以我很希望美国重新学会怎么大规模制造、怎么处理原材料、怎么建立更独立的工业能力。一个很尖锐的判断:未来两年,战争领域的变化,可能比消费电子还大。因为无人机、机器人、3D 打印、快速迭代,正在重写军事技术的更新逻辑。过去那种围绕大型平台的思路,正在变得越来越不适应。
主持人: 大家现在都在谈大模型越权、提示词注入。但如果对象换成一个机器人,这件事会更可怕。
Caitlin: 没错。我们必须能控制针对硬件层的对抗性攻击。无论是机器人、无人机还是别的物理设备,一旦被恶意操控,后果会比聊天机器人严重得多。如果一个系统只是泄露你的邮箱,已经够糟了;如果它操控的是可以移动、可以接触人的实体机器,那就完全是另一个等级的问题。
4. 苹果教会他的,不只是 " 极致 ",而是 " 为什么要这样做 "
主持人: 你在苹果待过,也在 Meta 从零搭过硬件团队。苹果真正厉害的地方是什么?
Caitlin: 苹果最厉害的地方之一,是它把硬件放在一等公民的位置。更重要的是,它会训练你去思考:为什么要这样设计?真正重要的目标是什么?很多人提苹果,会说 " 它很注重细节 ",这当然对,但还不够。真正关键的是:每一个设计决定——甚至是设备内部用户根本看不见的地方——都必须回到那个最根本的问题:我们到底在做什么?我们最在乎的结果是什么?当你一直用这种方法工作,最后产出的东西往往会看起来非常简单。但这种 " 简单 ",背后其实是极其复杂的系统性判断。
主持人: 能不能举个更具体的例子?

Caitlin: Quest 2 就是一个很典型的例子。当时目标非常明确:要让更多人买得起 VR。而要做到这件事,唯一办法就是降成本。一旦这个目标清楚,所有设计决策都会围绕它来:去掉哪些摄像头,换哪些材料,改哪些制造工艺,哪些组件必须重新选型。最后 Quest 2 成了历史上卖得最好的 VR 头显之一。它并不是 " 为了便宜而妥协 ",而是在明确目标之后,把整个产品重新优化了一遍。
主持人: 如果今天一家 AI 公司决定自己下场做硬件,你最想提醒他们什么?
Caitlin: 我会先说四件事。第一,目标要尽早定,而且尽量别改。硬件不像软件,经不起中途频繁转向。你一开始说产品卖 300 美元,做到一半改成 150 美元,前面很多时间基本就浪费了。第二,先做最难的部分。很多团队习惯先画自己最熟悉的部分,但真正好的架构师,永远先看 " 最可能失败的地方 "。比如某一代笔记本里,线缆要从转轴里穿过去。那不先把这个问题解决,其他地方画得再漂亮也没用。第三,用户摸得最多的地方,要迭代得最多。比如电脑的触控板、键盘。这些地方决定用户每天最直接的感受。它们必须比其他部分得到更多打磨。第四,知道要做的事,就立刻做。在硬件里,你从来不会 " 真的有空 "。今天不做,后面一定会被意外事件占掉时间。真正高效的硬件团队,都是提前把已知问题清掉,把时间留给未知问题。
主持人: 苹果经常被说 " 不听用户反馈 ",但它又总能做出成功产品。为什么?
Caitlin: 我觉得这句话经常被误读。真正的意思是:当你在做一个全新品类、一个用户从没见过的东西时,用户没法准确告诉你他想要什么。比如最初的 iPhone。如果你当时去问用户想要什么,他们大概率会说:我想要一个更好的实体键盘。因为他们没见过触屏手机是什么体验。所以不是说用户不重要,而是当你在做从 0 到 1 的东西时,不能被已有范式困住。用户在看到成品之后,往往会立刻知道 " 这就是我想要的 ";但在它出现之前,他描述不出来。
5. 硬件供应链的现实
主持人: 机器人公司 Madic 的创始人让我一定问你一个问题:内存价格。你说过," 一颗关于内存价格的陨石,正要砸向消费硬件、机器人和 Physical AI。" 到底发生了什么?
Caitlin: 简单说,行业会很难受。我不是专门研究内存市场的人,但我判断,AI 是重要推手之一。数据中心对内存和相关器件的需求非常大,而且不像消费电子那么敏感于价格。结果就是:如果某类关键元件,比如内存、芯片,供给跟不上需求,那消费硬件公司只有两个选择——要么硬吃涨价,要么提前备货。我一直在建议一些创业公司,如果财务条件允许,要尽早预买内存,给自己留库存缓冲。因为一旦价格暴涨,你几乎没有别的办法。我猜可能会翻倍,但我没法判断具体时间。关键不在于精准预测价格,而在于你得知道:这类供应链冲击是一定会来的。对硬件公司来说,这不是小波动,而是生死问题。
主持人: 以扫地机器人为例,一个硬件产品里到底有多少部件?
Caitlin: 如果按大件算,可能是 50 到 150 个;如果把 PCB 上的小元件都算进去,很容易就是上千个。拿扫地机器人来说,它有轮子、吸尘系统、拖地系统、水箱、地图构建系统、无线连接模块、SoC、RAM、PCB ……只要其中一个关键部件断供,就可能造成灾难性后果。如果少的是一个普通结构件,也许三五个月能换供应商。但如果断的是芯片、内存,麻烦就大了——你可能得重做整块板子、重新测试、重新跑可靠性、重新打通生产线。这不是 " 换个件 " 那么简单,而是整个产品内部都得重构。
主持人: 做硬件时,什么时候该用现成件,什么时候应该自己定制?
Caitlin: 原则很简单:在原型阶段,能买现成的就买现成的。原型阶段的目标,是先验证 " 这东西到底能不能工作 "。只要它能证明方案可行,就算外观不够好看、结构不够优雅,也没关系。我们内部经常会区分 " 看起来像 " 和 " 工作起来像 " 的模型。一个负责告诉你未来量产长什么样,另一个负责证明技术上可行。但到了量产阶段,如果你的 KPI 对尺寸、重量、颜色、性能有很具体的要求,很多现成件就不够用了。那时你就必须定制。所以这不是理念问题,而是阶段问题。
6. 爆发点是 "AI 会做 CAD" 那一天
主持人: AI 已经彻底改变软件工程了。那硬件呢?
Caitlin: 已经开始变了,但还没到最核心的部分。硬件研发的核心工作,大致包括三块:第一,做 3D CAD,设计零件和装配;第二,保证这些零件真能被供应商按要求做出来;第三,把它们装在一起,让产品真的工作。现在 AI 在这些工作里,更多还是辅助角色。比如它开始能做一些表面模型、点云类东西,但那离真正的工程 CAD 还差很远。真正的 CAD 不是 " 画个形状 ",而是有完整几何定义、曲面逻辑、实体结构的。PCB 设计是另一个正在变化的方向。现在看起来,AI 已经开始能做一些板内布线、基础元器件选择和布局,这些都会提升效率。但如果你问今天 AI 能不能替代日常机械工程和电气工程的 " 主体工作 ",答案还是不能。不过它已经可以明显改善策略、规划、资料整理、数据库构建,甚至 Excel 工作流。别小看这些事,它们加起来,已经能显著提升硬件团队效率。
主持人: 那你最期待 AI 在硬件研发里先突破什么?
Caitlin: 我最想要的是 " 工程版 Codex",或者说 " 硬件版 Codex"。今天的大模型,本质上还是非常擅长处理语言。视频模型也一样,它们并不真正理解摩擦、重量、接触、压力、表面纹理这些工程世界里极重要的物理属性。而这些,恰恰是工程设计最需要理解的东西。所以我怀疑,未来要让 AI 真正进入 CAD 和硬件工程,可能还需要新的模型类型,也许是更强的 world model。现有模型会是解决方案的一部分,但不是全部。
7. 人形机器人不是万能答案
主持人: 你似乎对 " 人形机器人会解决一切 " 这件事并不完全认同。
Caitlin: 我觉得人形机器人有一点 hype,但这不代表它不重要。只是很多人会天然觉得:既然人的形态这么通用,那我就做一个通用的人形机器人来干所有活。我不太相信这个逻辑。比如装笔记本螺丝,这件事根本不需要一个人形机器人。更合理的是一台专门为这个动作设计的自动化设备,每天重复同一个动作上万次。事实上,今天最先进的制造线里,很多工位已经几乎没有人了。PCB 线、机械装配线,都已经高度自动化。所以未来并不是 " 所有人类劳动都要被人形机器人替代 ",而更可能是:制造有制造机器人,物流有物流机器人,建筑有建筑机器人,电工作业有电工机器人。它们会长得都不一样。
主持人: 那未来会不会出现一个闭环:AI 设计机器人,机器人制造机器人?
Caitlin: 我觉得 " 机器人造机器人 " 会发生,但不是 " 一个机器人把自己完整复制出来 " 那种科幻画面。更现实的路径是:AI 帮你从 2D 图纸走到 3D CAD,再走到装配,再走到和供应商沟通,再迭代,再打样。未来一个业余爱好者也许都能借助 AI 做出复杂硬件。但这里有个非常现实的问题:数据。CAD 数据是很多硬件公司的核心 IP。三星也好,机器人公司也好,不可能轻易把这些数据拿去训练外部模型。所以我觉得,最先启动这件事的,可能不是大公司,而是 hobbyist 社区。因为他们更不在意 CAD 数据的保密,更在意 " 我能不能更快做出来 "。
主持人: 什么样的机器人,才会让人觉得 " 有人味 "、愿意亲近?
Caitlin: 我后来专门去学过这个问题。一个很关键的点是:人对 " 他者如何回应自己 " 有天然预期。你走进一个房间,另一个人哪怕不说话,至少也会抬头看你一眼。如果你走进房间,一个机器人毫无反应,就会很诡异。另外,机器人必须 " 展示意图 "。如果它突然猛地转身、直接开始动作,人会被吓到;但如果它先转头看一下,再动,就会自然很多。所以一个让人舒服的机器人,通常至少要满足几件事:看起来不具威胁性;有一点柔软感;能及时感知你在场;会在行动前传达自己的意图。从这个角度看,Pixar 和 Disney 其实是非常值得学习的。它们对 " 角色如何表达情绪、意图和亲和力 " 的理解,可能是世界顶级的。
主持人: 你期待家里有机器人吗?
Caitlin: 我是期待的,但我伴侣的标准非常高。这其实提醒了我一件事:家庭机器人要真正进入家庭,门槛可能比大家想象得更高。自动驾驶相对容易被接受,是因为它替代的是一个已经存在的行为:人类开车。你可以直接比较 " 人开 " 和 " 机器开 " 谁更安全。但家庭机器人不是这样。它不是把一件已经成熟存在的事完全替掉,而是在家庭空间里新增了一个会行动、会接触物体、甚至会接触人的实体。如果它做得不好,用户会立刻问:那我为什么要让它进来?所以家庭机器人不只是 " 能干活 " 就够了,它必须非常可靠,而且要能建立信任。
主持人: 如果往后看五年,你觉得我们的日常会怎么变?

Caitlin: 我觉得 AI 对工作方式的改变,会先发生在数字世界,而且已经开始了。写代码的人,已经很少完全手写代码;接下来,几乎所有知识工作都会逐步被影响。但物理世界没那么快。除了无人机、自动驾驶、部分服务机器人之外,我不认为五年后会突然有几千万台机器人满街跑。供应链、原材料、制造能力、工厂体系,这些都是重工程,不会一夜之间补齐。所以接下来几年,我们会越来越明显地感觉 " 自己活在未来里 " ——街上会出现更多机器人、更多自动化设备;但真正大规模普及,仍然需要时间。
主持人: 你之前离开 OpenAI,在社交媒体上引发了很大关注。为什么离开?
Caitlin: 我在 OpenAI 有很多非常在乎的人,也很尊重那家公司。我去那里是为了帮忙从零搭建机器人项目,也吸引了一批顶级机器人人才。但在国防相关合作这件事上,我认为决策过程、决策速度、治理方式,以及边界设置,都不是我认同的方式。所以对我来说,这不是 " 彻底否定这家公司 ",而是我明确知道:这件事超出了我的边界。我希望大家看到的是,现实里不只有 " 完全照做 " 和 " 彻底翻脸 " 两种选择。有时你可以尊重组织,也尊重自己,然后做出离开的决定。
主持人: 你很擅长组建团队。现在这个阶段,什么样的人最值得招?
Caitlin: 做 0 到 1 的团队时,不能只找 " 做过完全同一件事的人 ",因为很多事情本来就是新的,根本没人做过。所以我会重点找三类人。第一类,是强通才。他们可能来自不同领域,但能把旧经验迁移到新问题上。第二类,是一部分真正做过关键环节的人。比如机器人本体、自驾、感知、安全、量产,这些关键经验还是要有人补位。第三类,是 AI native 的年轻人。真正把 AI 融入思考和工作底层的人,很多就是 20 岁出头。他们解决问题的方式和上一代工程师明显不同,而且速度非常快。我们这一代人是互联网原住民、数字原住民,但不完全是 AI 原住民。所以现在很重要的一件事,是让这些年轻人反过来教我们怎么工作。团队必须有使命一致性。因为 AI 研究员和硬件工程师来自完全不同的世界,没有共同目标的话,沟通成本会非常高。
8. 从 Steve Jobs、Mark Zuckerberg、Sam Altman 身上分别学到了什么
主持人: 你跟乔布斯、扎克伯格、奥特曼都共事过。从他们身上学到了什么?
Caitlin: 先说 Sam。他最常推动我的一句话是:" 为什么不再大一点?" 为什么不是 100 倍?为什么不是 10000 倍?他会逼你意识到:你可能在很多问题上想得还不够大。关于乔布斯,他对人才和产品质量的标准,几乎没有波动。那个标准非常高,你要么达到,要么达不到。但对一个年轻、上进的人来说," 这还不够好 " 不是打击,反而常常是一种极强的驱动力。关于扎克伯格,Meta 在技术组织运转上,其实非常优秀。很多决策被下放到尽可能低的层级,以保证速度;流程清晰,评审有明确目标;如果不需要开会,就直接做决定。对于一家高速增长的大公司来说,这种组织效率非常不容易。
主持人: 有没有什么失败案例可以分享?
Caitlin: 在 Quest 早期版本里,团队为了降成本,把 5 个摄像头减成了 4 个。结果在 EVT 阶段,计算机视觉团队发现:摄像头数据不稳定,系统无法可靠锁定头显在空间中的位置。最后追查下来,不是某个零件坏了,而是两个团队对同一份规格的理解不一致:机械侧理解的是 " ± 0.15mm",而视觉侧理解的是 " 总偏差 0.15mm 以内 "。这个误差导致系统无法满足定位要求。最后团队不得不临时改架构,把底部两个摄像头固定到一个支架上,重新建立相对位置基准,才把问题救回来。这件事最能说明硬件研发的残酷之处:很多时候,一个非常细微的规格理解偏差,就足以让你在接近量产时被迫重构设计。
9. 写在最后
整场对话听下来,Caitlin 反复在说的其实是同一件事:AI 当然会先改变软件和知识工作,但真正更长线、更难也更大的机会,仍然在物理世界。只是这个世界不靠一句 " 我们也做硬件吧 " 就能进入。它要求你理解制造、供应链、公差、成本、零件、材料、交互、安全、组织方式,甚至地缘政治。如果说过去十多年,科技行业最强的能力是 " 把信息世界做大 ";那么接下来十年,真正拉开差距的能力,可能会变成:谁能把 AI 变成现实世界里可制造、可部署、可规模化的东西。


登录后才可以发布评论哦
打开小程序可以发布评论哦