前苹果、Meta、OpenAI硬件负责人：键盘后的AI会饱和，下一个前沿是物理世界 (1)

前苹果、Meta、OpenAI 硬件负责人：键盘后的 AI 会饱和，下一个前沿是物理世界

Caitlin Kalinowski 是硅谷资深的硬件领导者之一，横跨苹果、Meta、OpenAI 三家顶级硬件团队。在这场最新访谈中，他提出了几个极具前瞻性的判断：很多人认为 VR 没有成为主流消费产品，但过去十年 VR 所积累的空间定位、SLAM、深度感知等能力，实际上正在成为机器人与自动驾驶的底层基础设施；与此同时，一场由 AI 数据中心需求引发的 " 存储器争夺战 " 已经开始，HBM、DRAM 等关键内存正被大模型训练和推理快速吞噬，消费硬件供应链将持续承压，他甚至建议硬件创业公司现在就提前锁定内存供应。而在更深层的供应链里，一个被严重低估的瓶颈是磁铁与电机，过去 25 年，从稀土材料、磁体加工到电机制造，整条产业链几乎全部迁移至亚洲，而电机是机器人关节的核心，磁铁又是电机的核心，缺少这一环，整个机器人产业都可能被卡住。访谈最后，他也首次较为完整地解释了自己离开 OpenAI 的原因：并非不认可 AI 的价值，而是 OpenAI 在国防合作上的推进速度、治理方式与边界定义，已经超出了他个人能够接受的范围。以下是对谈全文。

1. VR 没成，但它没白做

主持人： VR 投了那么多钱，Meta 甚至都把公司名字改了，苹果也做了 Vision Pro。硬件明明很惊艳，为什么还是没真正爆发？

Caitlin： 如果今天回头看，我会觉得 VR 的价值，不只是 " 做成一个消费品品类 "，而是它帮整个行业提前解决了一批关键问题：比如怎么在空间里定位，怎么把虚拟世界和现实世界对齐，怎么用摄像头做 SLAM，怎么理解深度，怎么让机器知道 " 自己在空间中的位置 "。这些东西当然对 VR 有用，但现在你会发现，它们在机器人上同样关键：机器人要知道自己怎么运动、离周围物体有多远、怎么感知空间；如果人戴着头显去远程操控机器人，本质上用的还是那一套技术。所以在我看来，VR 更像是一段更长技术弧线里的一个阶段。它没变成大众消费主流，不代表它失败了。它只是把技术往前推了一大步。VR 最大的问题之一，是它把你的脸遮住了，社交属性天然受损。人和人之间的交流，很大一部分靠面部和眼神完成。你把这个切断了，产品就很难成为一个日常主流设备。这也是为什么我更相信 AR 眼镜代表未来的一部分。人并不适合一直低头看手机。如果你能在不切断社交连接的前提下获取信息，这个方向就更自然。

主持人： 你觉得未来会是 AR 眼镜吗？

Caitlin： 我相信 AR 眼镜会是未来的一部分。但问题在于，很多关键零部件还没准备好。以 Orion 为例，它用了 waveguide（波导）和 microLED，这些技术现在的量产良率还不够，成本也太高。所以方向没错，问题在于时机还没到。另一个难题是交互。你在公共空间里戴着眼镜，怎么输入？怎么安静地、自然地和它沟通？这些问题还没完全解出来。但从长期看，我确实相信一种 " 默认关闭、需要时再点亮 " 的显示设备，会成为未来计算平台的一部分。

2. 为什么机器人和硬件突然又热了

主持人： 现在大家突然都开始谈机器人、谈硬件了。为什么？

Caitlin： 我在旧金山 AI 圈里看到的一个明显变化是：很多人开始意识到，AI 在数字世界里的能力提升太快了。今天它还主要在键盘后面工作，但再往前走，大家会越来越清楚地看到一个趋势——数字世界里的问题，总有一天会相对接近饱和。一旦这件事发生，下一块真正巨大的增量市场，就是物理世界。也就是：机器人、制造、工业化、传感层、自动化、真实世界中的操作能力。所以现在无论是大模型公司、大厂，还是创业公司，都在同时往这个方向看，因为他们都意识到：下一个前沿，不在屏幕里，而在现实世界里。

主持人： 很多软件公司觉得，未来要做硬件，结果一做就懵了。硬件最反直觉的难点是什么？

Caitlin： 我经常这样跟软件工程师解释：软件是你写完代码，可以每天编译、每天迭代、每天修 bug。但硬件不是。硬件的 " 编译 "，可能一共就只有四五次。每一次大版本打样、开模、试产，都是一次 " 编译 "。等你真正进入量产，那就是最后一次。之后没法像软件一样在线更新硬件本体。这意味着硬件团队必须更保守，也必须在前期做更多验证。因为你最后一旦量产，东西就已经出去了，不能再改。而且硬件还有一个软件人不太直觉的问题：零件公差。一个产品卖到几百万台时，你面对的不是 " 标准零件 "，而是 " 分布在不同公差范围内的零件 "。最小的这个零件，要和最大的那个零件装在一起，产品还得正常工作。所以硬件团队真正玩的，是一个很残酷的游戏：你得在最后一次 " 编译 " 之前，把最后那 0.5% 的异常情况也想清楚。否则量产良率、返修率、利润，都会出问题。

主持人： 人形机器人现在很热。你觉得离大规模进入现实世界还有多远？

Caitlin： 在我看来，现在的人形机器人仍然主要是 " 高级原型机 "，还没有到真正大规模部署的时候。一个核心问题是安全。如果一个很大、很强的人形机器人，直接在人的身边工作，我们必须先有足够的数据证明它是安全的。这件事不是一句 " 动作准不准 " 就能解决的。你得考虑机器人手臂本身的运动能量，也要考虑电机和关节带来的冲击；还得考虑接触面是不是柔软、是否可压缩——因为这些都会影响它碰到人时的冲击力。所以更轻、更软、把质量往身体中心收的人形机器人，会天然更安全一些。现在有些团队已经在往这个方向设计了。我觉得它们还没 ready。下一阶段应该是：在原型可行之后，继续把它做得更便宜、更好制造、更高良率、更安全。这个过程很长，不是一两次 demo 就能跨过去的。

3. 供应链卡在磁铁和电机上

主持人： 那真正阻碍机器人规模化落地的是什么？

Caitlin： 第一件事就是供应链。机器人不是一个抽象的软件系统，它身上的每一个零件都来自现实世界的某个地方。这些零件未来可能会变得更难拿、更受限制、更难在美国本土完成装配。现在很多人都在说，把机器人生产搬回美国。但问题是，美国现在连成熟的执行器公司都不够多。

主持人： 执行器就是电机？

Caitlin： 对，本质上就是把电能转成机械运动的那部分。机器人胳膊、手指、头部、腿部的运动，都离不开它。

主持人： 你一直在强调执行器、磁铁这些基础部件。为什么它们这么关键？

Caitlin： 可以把这个链条想成几层：先是原材料，比如磁体；然后是磁体加工；再往上是把磁体集成到执行器里；然后是把执行器集成到机器人和各种子系统里。过去 25 年，这整条链条的很多能力，逐步外移到了中国、日本、韩国这些地方。亚洲的强项一直是规模制造和低成本生产。今天全球硬件业的很多能力，就是在这样的分工中形成的。但如果你想让供应链更安全，就必须重新建立这些层级上的独立能力。

主持人： 但为什么偏偏是磁铁？

Caitlin： 因为很多电机的基本原理就依赖磁场。你可以把它简单理解成：一圈极性排列的磁体，配合电流变化，驱动转子旋转。无论是无人机的旋翼，还是机器人的关节，本质上都离不开这类基础技术。所以如果你拿不到磁体，执行器就会受影响；拿不到执行器，机器人就很难做出来。它是很底层的瓶颈。

主持人： 你怎么看这种供应链和地缘政治之间的关系？

Caitlin： 我觉得美国必须重新工业化，尤其是从国家安全角度看。你永远不知道未来会发生什么，也不能默认今天的盟友会永远保持同样关系。如果下一轮疫情、战争或者别的系统性冲击来了，而你连原材料加工、核心零件生产、规模制造的能力都没有，那你就会非常被动。所以我很希望美国重新学会怎么大规模制造、怎么处理原材料、怎么建立更独立的工业能力。一个很尖锐的判断：未来两年，战争领域的变化，可能比消费电子还大。因为无人机、机器人、3D 打印、快速迭代，正在重写军事技术的更新逻辑。过去那种围绕大型平台的思路，正在变得越来越不适应。

主持人： 大家现在都在谈大模型越权、提示词注入。但如果对象换成一个机器人，这件事会更可怕。

Caitlin： 没错。我们必须能控制针对硬件层的对抗性攻击。无论是机器人、无人机还是别的物理设备，一旦被恶意操控，后果会比聊天机器人严重得多。如果一个系统只是泄露你的邮箱，已经够糟了；如果它操控的是可以移动、可以接触人的实体机器，那就完全是另一个等级的问题。

4. 苹果教会他的，不只是 " 极致 "，而是 " 为什么要这样做 "

主持人： 你在苹果待过，也在 Meta 从零搭过硬件团队。苹果真正厉害的地方是什么？

Caitlin： 苹果最厉害的地方之一，是它把硬件放在一等公民的位置。更重要的是，它会训练你去思考：为什么要这样设计？真正重要的目标是什么？很多人提苹果，会说 " 它很注重细节 "，这当然对，但还不够。真正关键的是：每一个设计决定——甚至是设备内部用户根本看不见的地方——都必须回到那个最根本的问题：我们到底在做什么？我们最在乎的结果是什么？当你一直用这种方法工作，最后产出的东西往往会看起来非常简单。但这种 " 简单 "，背后其实是极其复杂的系统性判断。

主持人： 能不能举个更具体的例子？

Caitlin： Quest 2 就是一个很典型的例子。当时目标非常明确：要让更多人买得起 VR。而要做到这件事，唯一办法就是降成本。一旦这个目标清楚，所有设计决策都会围绕它来：去掉哪些摄像头，换哪些材料，改哪些制造工艺，哪些组件必须重新选型。最后 Quest 2 成了历史上卖得最好的 VR 头显之一。它并不是 " 为了便宜而妥协 "，而是在明确目标之后，把整个产品重新优化了一遍。

主持人： 如果今天一家 AI 公司决定自己下场做硬件，你最想提醒他们什么？

Caitlin： 我会先说四件事。第一，目标要尽早定，而且尽量别改。硬件不像软件，经不起中途频繁转向。你一开始说产品卖 300 美元，做到一半改成 150 美元，前面很多时间基本就浪费了。第二，先做最难的部分。很多团队习惯先画自己最熟悉的部分，但真正好的架构师，永远先看 " 最可能失败的地方 "。比如某一代笔记本里，线缆要从转轴里穿过去。那不先把这个问题解决，其他地方画得再漂亮也没用。第三，用户摸得最多的地方，要迭代得最多。比如电脑的触控板、键盘。这些地方决定用户每天最直接的感受。它们必须比其他部分得到更多打磨。第四，知道要做的事，就立刻做。在硬件里，你从来不会 " 真的有空 "。今天不做，后面一定会被意外事件占掉时间。真正高效的硬件团队，都是提前把已知问题清掉，把时间留给未知问题。

主持人： 苹果经常被说 " 不听用户反馈 "，但它又总能做出成功产品。为什么？

Caitlin： 我觉得这句话经常被误读。真正的意思是：当你在做一个全新品类、一个用户从没见过的东西时，用户没法准确告诉你他想要什么。比如最初的 iPhone。如果你当时去问用户想要什么，他们大概率会说：我想要一个更好的实体键盘。因为他们没见过触屏手机是什么体验。所以不是说用户不重要，而是当你在做从 0 到 1 的东西时，不能被已有范式困住。用户在看到成品之后，往往会立刻知道 " 这就是我想要的 "；但在它出现之前，他描述不出来。

5. 硬件供应链的现实

主持人： 机器人公司 Madic 的创始人让我一定问你一个问题：内存价格。你说过，" 一颗关于内存价格的陨石，正要砸向消费硬件、机器人和 Physical AI。" 到底发生了什么？

Caitlin： 简单说，行业会很难受。我不是专门研究内存市场的人，但我判断，AI 是重要推手之一。数据中心对内存和相关器件的需求非常大，而且不像消费电子那么敏感于价格。结果就是：如果某类关键元件，比如内存、芯片，供给跟不上需求，那消费硬件公司只有两个选择——要么硬吃涨价，要么提前备货。我一直在建议一些创业公司，如果财务条件允许，要尽早预买内存，给自己留库存缓冲。因为一旦价格暴涨，你几乎没有别的办法。我猜可能会翻倍，但我没法判断具体时间。关键不在于精准预测价格，而在于你得知道：这类供应链冲击是一定会来的。对硬件公司来说，这不是小波动，而是生死问题。

主持人： 以扫地机器人为例，一个硬件产品里到底有多少部件？

Caitlin： 如果按大件算，可能是 50 到 150 个；如果把 PCB 上的小元件都算进去，很容易就是上千个。拿扫地机器人来说，它有轮子、吸尘系统、拖地系统、水箱、地图构建系统、无线连接模块、SoC、RAM、PCB ……只要其中一个关键部件断供，就可能造成灾难性后果。如果少的是一个普通结构件，也许三五个月能换供应商。但如果断的是芯片、内存，麻烦就大了——你可能得重做整块板子、重新测试、重新跑可靠性、重新打通生产线。这不是 " 换个件 " 那么简单，而是整个产品内部都得重构。

主持人： 做硬件时，什么时候该用现成件，什么时候应该自己定制？

Caitlin： 原则很简单：在原型阶段，能买现成的就买现成的。原型阶段的目标，是先验证 " 这东西到底能不能工作 "。只要它能证明方案可行，就算外观不够好看、结构不够优雅，也没关系。我们内部经常会区分 " 看起来像 " 和 " 工作起来像 " 的模型。一个负责告诉你未来量产长什么样，另一个负责证明技术上可行。但到了量产阶段，如果你的 KPI 对尺寸、重量、颜色、性能有很具体的要求，很多现成件就不够用了。那时你就必须定制。所以这不是理念问题，而是阶段问题。

6. 爆发点是 "AI 会做 CAD" 那一天

主持人： AI 已经彻底改变软件工程了。那硬件呢？

Caitlin： 已经开始变了，但还没到最核心的部分。硬件研发的核心工作，大致包括三块：第一，做 3D CAD，设计零件和装配；第二，保证这些零件真能被供应商按要求做出来；第三，把它们装在一起，让产品真的工作。现在 AI 在这些工作里，更多还是辅助角色。比如它开始能做一些表面模型、点云类东西，但那离真正的工程 CAD 还差很远。真正的 CAD 不是 " 画个形状 "，而是有完整几何定义、曲面逻辑、实体结构的。PCB 设计是另一个正在变化的方向。现在看起来，AI 已经开始能做一些板内布线、基础元器件选择和布局，这些都会提升效率。但如果你问今天 AI 能不能替代日常机械工程和电气工程的 " 主体工作 "，答案还是不能。不过它已经可以明显改善策略、规划、资料整理、数据库构建，甚至 Excel 工作流。别小看这些事，它们加起来，已经能显著提升硬件团队效率。

主持人： 那你最期待 AI 在硬件研发里先突破什么？

Caitlin： 我最想要的是 " 工程版 Codex"，或者说 " 硬件版 Codex"。今天的大模型，本质上还是非常擅长处理语言。视频模型也一样，它们并不真正理解摩擦、重量、接触、压力、表面纹理这些工程世界里极重要的物理属性。而这些，恰恰是工程设计最需要理解的东西。所以我怀疑，未来要让 AI 真正进入 CAD 和硬件工程，可能还需要新的模型类型，也许是更强的 world model。现有模型会是解决方案的一部分，但不是全部。

7. 人形机器人不是万能答案

主持人： 你似乎对 " 人形机器人会解决一切 " 这件事并不完全认同。

Caitlin： 我觉得人形机器人有一点 hype，但这不代表它不重要。只是很多人会天然觉得：既然人的形态这么通用，那我就做一个通用的人形机器人来干所有活。我不太相信这个逻辑。比如装笔记本螺丝，这件事根本不需要一个人形机器人。更合理的是一台专门为这个动作设计的自动化设备，每天重复同一个动作上万次。事实上，今天最先进的制造线里，很多工位已经几乎没有人了。PCB 线、机械装配线，都已经高度自动化。所以未来并不是 " 所有人类劳动都要被人形机器人替代 "，而更可能是：制造有制造机器人，物流有物流机器人，建筑有建筑机器人，电工作业有电工机器人。它们会长得都不一样。

主持人： 那未来会不会出现一个闭环：AI 设计机器人，机器人制造机器人？

Caitlin： 我觉得 " 机器人造机器人 " 会发生，但不是 " 一个机器人把自己完整复制出来 " 那种科幻画面。更现实的路径是：AI 帮你从 2D 图纸走到 3D CAD，再走到装配，再走到和供应商沟通，再迭代，再打样。未来一个业余爱好者也许都能借助 AI 做出复杂硬件。但这里有个非常现实的问题：数据。CAD 数据是很多硬件公司的核心 IP。三星也好，机器人公司也好，不可能轻易把这些数据拿去训练外部模型。所以我觉得，最先启动这件事的，可能不是大公司，而是 hobbyist 社区。因为他们更不在意 CAD 数据的保密，更在意 " 我能不能更快做出来 "。

主持人： 什么样的机器人，才会让人觉得 " 有人味 "、愿意亲近？

Caitlin： 我后来专门去学过这个问题。一个很关键的点是：人对 " 他者如何回应自己 " 有天然预期。你走进一个房间，另一个人哪怕不说话，至少也会抬头看你一眼。如果你走进房间，一个机器人毫无反应，就会很诡异。另外，机器人必须 " 展示意图 "。如果它突然猛地转身、直接开始动作，人会被吓到；但如果它先转头看一下，再动，就会自然很多。所以一个让人舒服的机器人，通常至少要满足几件事：看起来不具威胁性；有一点柔软感；能及时感知你在场；会在行动前传达自己的意图。从这个角度看，Pixar 和 Disney 其实是非常值得学习的。它们对 " 角色如何表达情绪、意图和亲和力 " 的理解，可能是世界顶级的。

主持人： 你期待家里有机器人吗？

Caitlin： 我是期待的，但我伴侣的标准非常高。这其实提醒了我一件事：家庭机器人要真正进入家庭，门槛可能比大家想象得更高。自动驾驶相对容易被接受，是因为它替代的是一个已经存在的行为：人类开车。你可以直接比较 " 人开 " 和 " 机器开 " 谁更安全。但家庭机器人不是这样。它不是把一件已经成熟存在的事完全替掉，而是在家庭空间里新增了一个会行动、会接触物体、甚至会接触人的实体。如果它做得不好，用户会立刻问：那我为什么要让它进来？所以家庭机器人不只是 " 能干活 " 就够了，它必须非常可靠，而且要能建立信任。

主持人： 如果往后看五年，你觉得我们的日常会怎么变？

Caitlin： 我觉得 AI 对工作方式的改变，会先发生在数字世界，而且已经开始了。写代码的人，已经很少完全手写代码；接下来，几乎所有知识工作都会逐步被影响。但物理世界没那么快。除了无人机、自动驾驶、部分服务机器人之外，我不认为五年后会突然有几千万台机器人满街跑。供应链、原材料、制造能力、工厂体系，这些都是重工程，不会一夜之间补齐。所以接下来几年，我们会越来越明显地感觉 " 自己活在未来里 " ——街上会出现更多机器人、更多自动化设备；但真正大规模普及，仍然需要时间。

主持人： 你之前离开 OpenAI，在社交媒体上引发了很大关注。为什么离开？

Caitlin： 我在 OpenAI 有很多非常在乎的人，也很尊重那家公司。我去那里是为了帮忙从零搭建机器人项目，也吸引了一批顶级机器人人才。但在国防相关合作这件事上，我认为决策过程、决策速度、治理方式，以及边界设置，都不是我认同的方式。所以对我来说，这不是 " 彻底否定这家公司 "，而是我明确知道：这件事超出了我的边界。我希望大家看到的是，现实里不只有 " 完全照做 " 和 " 彻底翻脸 " 两种选择。有时你可以尊重组织，也尊重自己，然后做出离开的决定。

主持人： 你很擅长组建团队。现在这个阶段，什么样的人最值得招？

Caitlin： 做 0 到 1 的团队时，不能只找 " 做过完全同一件事的人 "，因为很多事情本来就是新的，根本没人做过。所以我会重点找三类人。第一类，是强通才。他们可能来自不同领域，但能把旧经验迁移到新问题上。第二类，是一部分真正做过关键环节的人。比如机器人本体、自驾、感知、安全、量产，这些关键经验还是要有人补位。第三类，是 AI native 的年轻人。真正把 AI 融入思考和工作底层的人，很多就是 20 岁出头。他们解决问题的方式和上一代工程师明显不同，而且速度非常快。我们这一代人是互联网原住民、数字原住民，但不完全是 AI 原住民。所以现在很重要的一件事，是让这些年轻人反过来教我们怎么工作。团队必须有使命一致性。因为 AI 研究员和硬件工程师来自完全不同的世界，没有共同目标的话，沟通成本会非常高。

8. 从 Steve Jobs、Mark Zuckerberg、Sam Altman 身上分别学到了什么

主持人： 你跟乔布斯、扎克伯格、奥特曼都共事过。从他们身上学到了什么？

Caitlin： 先说 Sam。他最常推动我的一句话是：" 为什么不再大一点？" 为什么不是 100 倍？为什么不是 10000 倍？他会逼你意识到：你可能在很多问题上想得还不够大。关于乔布斯，他对人才和产品质量的标准，几乎没有波动。那个标准非常高，你要么达到，要么达不到。但对一个年轻、上进的人来说，" 这还不够好 " 不是打击，反而常常是一种极强的驱动力。关于扎克伯格，Meta 在技术组织运转上，其实非常优秀。很多决策被下放到尽可能低的层级，以保证速度；流程清晰，评审有明确目标；如果不需要开会，就直接做决定。对于一家高速增长的大公司来说，这种组织效率非常不容易。

主持人： 有没有什么失败案例可以分享？

Caitlin： 在 Quest 早期版本里，团队为了降成本，把 5 个摄像头减成了 4 个。结果在 EVT 阶段，计算机视觉团队发现：摄像头数据不稳定，系统无法可靠锁定头显在空间中的位置。最后追查下来，不是某个零件坏了，而是两个团队对同一份规格的理解不一致：机械侧理解的是 " ± 0.15mm"，而视觉侧理解的是 " 总偏差 0.15mm 以内 "。这个误差导致系统无法满足定位要求。最后团队不得不临时改架构，把底部两个摄像头固定到一个支架上，重新建立相对位置基准，才把问题救回来。这件事最能说明硬件研发的残酷之处：很多时候，一个非常细微的规格理解偏差，就足以让你在接近量产时被迫重构设计。

9. 写在最后

整场对话听下来，Caitlin 反复在说的其实是同一件事：AI 当然会先改变软件和知识工作，但真正更长线、更难也更大的机会，仍然在物理世界。只是这个世界不靠一句 " 我们也做硬件吧 " 就能进入。它要求你理解制造、供应链、公差、成本、零件、材料、交互、安全、组织方式，甚至地缘政治。如果说过去十多年，科技行业最强的能力是 " 把信息世界做大 "；那么接下来十年，真正拉开差距的能力，可能会变成：谁能把 AI 变成现实世界里可制造、可部署、可规模化的东西。

宙世代

一起剪

相关标签