独家对话清华AIR教授曹婷：具身最被忽视的问题，就是物理智能体

" 清华系 " 是具身智能领域里绕不过去的大山，这座大山上刻着银河通用的王鹤、星动纪元的陈建宇、它石智航的陈亦伦、加速进化的程昊、千寻智能的高阳等一长串闪光的名字，据清华电子系统计，其校友创办的具身相关企业已近 20 家。而清华系的版图里，AIR（清华大学智能产业研究院）的定位则更加明确。它不仅产出学术论文，更着力于把实验室的前沿技术扎实地铺进产业。它石智航的陈亦伦就曾是 AIR 智能机器人方向的首席科学家。

2026 年初，" 具身智能 " 被正式写入 " 十五五 " 规划纲要，成为国家战略级别的未来产业。与此同时，一批在企业研究院深耕多年的科学家，也选择陆续回到国内高校，从单纯的企业研究体系重新走进一批兼顾学术研究和产业培育的高校研究院。

曹婷的选择正是清华 AIR。

曹婷，清华大学智能产业研究院教授，北京市高层次引进人才

在微软研究院工作了七年，2025 年夏天，曹婷成为清华大学智能产业研究院（AIR）的教授。多年来，她始终聚焦 " 极致智能密度 " 与 " 顶尖执行性能 " 的核心目标，在智能计算前沿领域持续攻坚，突破极低比特模型量化、基于查表的大模型高效推理、全帧率实时多模态大模型架构、存算一体模型加速器等一系列关键技术，构建起从算法到硬件创新的完整技术体系。

在微软期间，这些技术的应用使她能带领团队在业界首次赋能复杂神经网络模型从云端迁移到手机、PC 甚至 IoT 设备上，服务于百万用户，保护用户隐私的同时节省百亿次的云端调用成本。但这次，她做出了新的选择。

我们还独家获悉，曹婷教授及团队正计划孵化一家新公司，专注于可以持续进化的物理智能体，新公司目前仍在筹备阶段。

以下为与曹婷教授的对话全文，略有删减：

从工业研究院到高校

创投家：您当时选择来清华也在媒体引起了不小的关注，为什么选择在这个时候来清华？

曹婷：企业研究院对我来说，是一段非常重要、也非常感恩的经历。无论是在华为还是在微软，我都经历了从前沿研究到系统落地、再到真正被大规模用户使用的完整过程。你会看到一个技术怎么从论文里的想法，变成可以在手机、PC、IoT 设备上稳定运行的能力，也会真切体会到，自己的工作被百万、千万用户用起来是什么感觉。这种训练和成就感，对我今天做很多判断都非常重要。

但到了职业生涯的这个阶段，我会更想跳出已经熟悉的路径，去定义新的问题，探索新的产品方向和应用空间。企业研究院让我把一个清晰的问题做到极致，而接下来我更想去做那些还没有标准答案、也还没有人把路径真正走通的事情。具身智能这件事，正在从 " 想象 " 变成 " 可以做 "，不是五年后，是现在。这个判断让我觉得，现在进来，时机是对的。

清华 AIR 刘云新老师比我早几年做这个选择，他在 MSRA 工作了将近二十年，也是我在端侧智能方向上最重要的合作者之一。他五年前来到这里，对我触动很大。一个在工业界深耕这么多年的人，选择把后半程放在学术研究和产业培育上，背后一定有很深的判断。这也让我更愿意在这个时间点来到清华，去做一些更长期、也更难的事情。

创投家：清华 AIR 这边，跟企业研究院最大的不同在哪里？

曹婷：我觉得是问题的来源和时间尺度不一样。企业研究院面对的，往往是已经有产品基础、有用户场景、有业务重心的问题空间。研究院要做的是怎么提出一个新想法，而是把它变成可以进入产品链条、进入系统栈、最终服务真实用户的能力。我很多关于技术价值的判断，都是在这样的训练里形成的。

而清华 AIR 吸引我的地方，在于它能让我把研究、产业和长期问题定义放在同一个坐标系里思考。具身智能被写入‘十五五’规划，不是因为它是一个好听的概念，而是因为它关系到中国下一步的产业竞争力。制造业的柔性升级、物流的无人化、能源设施的巡检、老龄化社会的照护，这些问题都不是靠传统自动化就能解决的，它们需要真正的物理智能。

所以对我来说，来到清华 AIR，不是离开产业，而是把视角再往前推一步，有耐心去做五年甚至十年后国家和社会真正需要的事情，这一点对我非常有吸引力。

具身智能的窗口与缺口

创投家：具身智能写进了国家规划。你觉得这个时间节点选得准吗？

曹婷：我觉得这个时间点选得非常准。具身智能今天被写进国家规划，是因为它已经进入了一个从前沿探索走向产业布局的关键阶段。机器人本体逐渐成熟，成本和稳定性都在改善；中国又恰恰拥有全球最完整的制造业体系、最强的供应链协同能力，以及在如制造业、物流、养老、城市管理这些密度最高、类型最丰富的真实应用场景。这样的组合，在别的国家并不容易同时具备。

所以中国今天推进具身智能，有点像当年布局电动车。真正重要的不是某一个单点技术，而是技术成熟度、产业基础、场景需求和政策牵引在同一个时间点形成了合力。一旦这种合力出现，产业窗口往往很快就会打开，往往不会持续太久。谁能尽快把真正有价值的东西做出来，谁就有机会定义下一阶段的产业格局。

创投家：你说的 " 有价值的东西 "，指的是什么？

曹婷：真正能在开放世界里持续进化的物理智能体。

现在的具身智能，本质上还停留在工具阶段。哪怕 VLA 或者世界模型训练得很强，它们多数还是在做拧螺丝、搬运、分拣、抓取这类单点任务，像一个工具箱，但还不是一个真正会成长的可靠员工。

市场真正需要的，是能在真实岗位上、在和物理世界反复交互中，能自己总结经验、发现问题、修正策略。比如今天清管道，下一次就会记住哪里容易打滑，要动作幅度小一点、慢一点；今天打扫卫生间，下次就会记住污渍分布和台面材质，知道怎么擦更稳、更不伤表面。脱离工具，越来越像一个模范员工，才是具身智能目前急缺的那一块。

创投家：你看这个赛道，有没有什么大家低估或者回避的问题？

曹婷：物理智能体决定具身能不能真的落地，但恰恰是这点是大家忽视的，讲的少，做的更少，做起来极具挑战。

数字世界里的智能体，很多时候面对的是稳定接口和确定规则；但物理世界不是这样，训练时没见过的情况每天都会出现，而且每台机器本体、每个场景、每次交互都不一样。它不能只靠预训练的模型，经验必须在真实环境里自己去摸索和持续积累，才能在自己的场景下把每台本体能力发挥好。

也正因为这样，物理智能体比数字智能体更必要，也更难。难点不只是让机器做出动作，更难的是让它在真实交互中积累经验、形成记忆，并把这些经验转化成下一次更稳、更好的执行。怎么理解物理环境，怎么表示交互经验，怎么构建长期多模态记忆，怎么形成持续进化的闭环，这些问题到今天都还没有成熟解法，而这正是我们提早投入、也已看到初步成果的方向。

创投家：产业侧还有哪些实际的障碍？

曹婷：上面说的物理智能体，其实科研侧和产业侧都绕不开。在产业侧，还有另一个非常具体的矛盾：真正有用的物理智能体需要在端侧部署。

你可能会想，数字智能体能部署在云端，为什么物理智能体要在端侧？一是延迟，机器人的输入是物理世界、是连续的视频、点云、传感器等等这些多模态的数据，往云端传个几帧数据十几秒可能就过去了，根本不能支撑实时动作的生成；二是网络，很多真实场景是弱网或离网的，比如刚提到的管网清洁场景；三是隐私，无论是家庭场景还是工业场景，用户图像敢不敢传到云端去？

所以具身智能体必须在端侧跑。但端侧的算力是有限的。这就要求你在模型的推理效率上做到极致，不是 " 差不多 "，是真正的极致。这个软硬件协同的挑战，正是我们团队的强项。

从实验室再回到产业中去

创投家：你们是怎么思考这些挑战的？

曹婷：我们不是把物理智能看成一个单点模型问题，而是把它看成一条完整的能力链。

物理智能体要真正成立，至少有几件事要同时做好：它得持续理解物理世界正在发生什么，得根据当前任务和过往经验组织行动，得把一次次交互沉淀成可复用的技能，还得能在端侧真正跑起来，这是我们目前要突破的技术核心。

第一是实时理解。具身智能体要一边理解事件怎么发生，一边决定下一步动作怎么触发。比如倒水，水位到哪里该停生成新的动作，当下就要判断。这里最难的是，认知复杂度很高，但又不能为了准确率牺牲实时性，所以我们一直在做流式视频理解并发表 Streammind、Em-Garde 等系列工作，希望让系统真正具备‘ prompt the world ’的能力。

第二是智能体本身的能力。光看懂还不够，它还要结合过去的经验记忆、当前的任务、环境观测和历史动作，持续维护一个内在持久状态，知道下一步该拆成什么子任务、该生成什么输入、该怎么把有限的具身能力高效使用。这部分我们也发表了 AdaNav VLN 等工作，通过自主思考维护内在状态和任务拆解。

第三是记忆和经验提取。对物理智能体来说，memory bank 要和具体本体的能力边界、动作结果和环境反馈一起工作。它要做的是在反复交互里不断筛掉冗余和噪声，把真正有用的经验提炼成稳定的技能，同时维护一个前后一致的长期记忆。比如刚才提到的它记得‘某次走滑了’，在这类地面上应该小步走、减速走。这个方向我们发表了像 AVA 等工作，近期也将有更多成果展示。

最后是端侧高效部署。物理智能体必须在端侧实时感知、实时决策、实时执行，这就要求整个系统在算力、时延和能耗上都做到非常极致。我们把理解、决策、记忆和部署放在同一个闭环里一起做。这部分是我们组的传统强项，发表了一系列如 T-MAC、BitDistiller、Pregated-MoE、LUT Tensor core 等出圈的工作，被一百多家媒体转发，被集成到各种大模型推理框架，获得几万颗星。

创投家：你们在上面几个方向做到了什么程度？

曹婷：现在我们的前期验证结果非常可观，在业界和社区共认最难的长程复杂任务评测基准上，任务完成精度比行业里比较主流的方案高出两三倍；在端侧推理速度上，是主流方案的四倍以上。

更重要的是物理智能体持续演进的效果。我们做过实验：机器人在一个环境里反复执行相似任务，每次失败后从记忆里学习，任务精度持续提升，最高能提升超过 20 个百分点。这不是重新训练，是真正的在线演进。

创投家：所以这些技术也会产业化？

曹婷：是的，我们正计划孵化一家公司，把这些年积累的持续进化能力从实验室带到产业中去。目前还在筹备阶段，在和一些投资人接触。AIR 本身就是产业研究院，只做论文不是我们的终点，技术要真的落地，有产业，有转化，才算完成闭环。

创投家：做这件事，你们的优势是什么？

曹婷：我觉得我们的优势，首先是全栈。物理智能体落地不是单做模型就行，它一定是算法、系统、硬件一起协同，训练、推理、部署都要打通，这个能力不是哪个组都具备的。我们过去长期做端侧智能和高效推理，所以从一开始看这个问题，就会同时考虑它怎么训、怎么跑、怎么真正部署到本体上。

我们也不是只会做论文。组里很多同学和合作伙伴都有头部基模团队的经验，也一直在真实场景里打磨技术，所以从前沿模型到工程实现、再到产业落地，这条链路我们是比较完整的。另外更重要的就是现在清华 AIR 的平台优势。

清华的学生有顶尖的创造力，这在没有现成答案的领域是稀缺资源。合作伙伴上，刘云新老师在 AIoT 和端侧智能有二十年积累，IEEE Fellow，在微软时我们就是同一个团队的合作者，现在我们依旧在一起突破物理智能体技术。我们还有很多外部合作者，比如南大的吴昊研究员，他读博士的时候就在我组里做 research intern，工作后又来到 MSRA 访问，我们一直紧密合作，现在他已经是中央部委高层次创新人才了。

当然还有清华 AIR" 产学研打通 " 的定位，让我们能持续接触企业真实场景的数据和需求，比如物流、能源、环境等中国特有的丰富场景，是研究物理智能体不可或缺的土壤。

创投家：你有没有想象过，十年后具身智能是什么样子？

曹婷：我不太喜欢把十年后的事情说得太具体，容易过于乐观。我觉得具身智能可能像十多年前的电动车一样，都处在一个关键拐点上：技术开始过线，产业链开始补齐，真实需求开始集中出现，政策也开始把它放到更高的战略坐标里。一旦这几股力量汇合，后面的发展往往会比很多人想得更快。今天大家看到的，可能还是一些单点能力和演示；十年后真正重要的，是它会不会变成制造、物流、能源、家庭服务这些场景里的默认能力。

到那个时候，人们关心的可能不再是‘这是不是具身智能’，而是它已经自然地在那里工作了。工厂里高危、重复、枯燥的任务被接过去，物流和巡检系统可以更自主地运行，家庭里一些照护和辅助性的工作有人分担，很多以前只能靠人硬扛的事情，开始有了新的解法。真正成熟的技术，最后都不是因为概念响亮，而是因为它改变了社会运行的方式。

所以我现在更关心的，是十年后我们能不能真的把一些重要场景做出来，让物理智能体在真实世界里稳定工作、持续进化，变成社会基础能力的一部分。如果这件事能发生，我会觉得今天做的很多选择都是值得的。

宙世代

一起剪

相关标签