专访贾奎：世界模型不是Demo是生意，10亿融资到位，跨维智能冲刺IPO

定义 Physical Token 经济学。

作者｜田思奇

编辑｜栗子

" 春节一过，行业就开始关注机器人能不能干活了。"

具身智能行业不缺少宏大叙事。Physical AGI 的想象足够迷人。但跨维智能创始人贾奎关心的是，一台人形机器人在工厂的每一次作业，会消耗多少数据、算力、硬件成本？客户能获得多少回报？

这些问题被贾奎统称作"Physical Token 经济学 "。在他看来，物理 AI 不能只依赖巨量投入和宏大叙事。" 目前行业最大的问题确实是太浮躁了，" 贾奎说。" 你天天秀 Demo，总得拿出点可以解决问题的东西。"

贾奎是香港中文大学（深圳）终身教授，国内最早深耕空间智能和三维数据生成的学者之一。2021 年创办跨维智能后，他试图把这些底层研究从论文和 Demo 中拉出来，变成能进入真实场景、产生商业价值的物理 AI 系统。

跨维智能创始人贾奎

5 年来，跨维智能已在 50 多个细分行业部署了超 1500 个具身智能模型，产品覆盖机器人大脑、空间智能传感器和人形本体，自研 DexWorldModel 登顶 WorldArena 全球榜单。

公司近期完成 10 亿元B 轮融资，投后估值超100 亿元，投资方包括连投两轮的深创投、贵阳数字经济基金，原有股东南山战新投、成都科创投、四川院士基金追加跟投，以及新入局的前海母基金、蓝思科技、工银资本、恒健资产、诸瑞资本等。

这家今年营收预计达 2.5-3 亿元的公司，正冲刺世界模型赛道第一股。

围绕 Physical Token 经济学和对具身智能商业化路径的判断，贾奎在对谈中系统解释了跨维智能的技术路线、世界模型选择，以及工业和商业服务场景中的落地进展。以下为贾奎公开访谈内容，经「甲子光年」整理。

1. 融资热之后，具身智能进入算账周期

提问：如何向不太了解跨维智能的人介绍这家公司？

贾奎：跨维是一家物理 AI 公司，核心是用 AI 构建三维物理世界，以最高性价比的范式训练模型完成感知、决策到执行的闭环，驱动本体完成柔性作业。

我们的使命是将通用 AI 能力推向物理世界。尽管挑战很大，但我们希望通过底层技术研发，落地通用泛化能力、控制成本，真正释放工业与商业场景的应用价值。AI 的本质是降本增效，物理 AI 的核心就是赋能本体，让其在真实场景中产生价值。

提问：跨维 2021 年成立时，具身智能还不是今天这样的风口。外界最早认识跨维，更多是从工业机械臂这样的场景开始；但这两年，行业叙事迅速转向具身智能、世界模型和人形机器人。回头看，真正推动跨维战略和技术演进的，是新一轮 AI 技术的出现，还是客户需求和场景变化？

贾奎：从 2016 年开始的非常早的学术研究，到 2021 年公司成立，我们始终在做同一件事：用 AI 解决三维物理世界的感知、决策与执行问题。无论是早期的工业场景，还是现在的商业服务、人形机器人，底层逻辑完全一致，核心都是围绕高效数据生成、模型训练、本体适配、跨场景泛化，以及精度与稳定性的打磨。

2021 年我们优先切入工业场景，是因为工业场景的社会与商业就绪度最高，对具身智能的需求最刚性——技术达标，客户就愿意付费。具身智能的风口确实带来了变化：社会、政府和客户对新技术的接受度明显提升。2021 到 2023 年上半年，很多客户听不懂我们的技术，现在的市场环境已经完全不同。

提问：外界看跨维，好像既有大脑软件，也有传感器和人形本体，还做工业和商业服务。这几条线之间的关系是什么？

贾奎：跨维最核心的底座是自研 DexVerse 具身智能引擎。AI 落地三维物理世界，要解决 3D 感知定位、驱动机器人执行任务，必须依托底层引擎能力，实现高效数据获取、模型训练与复杂技能支持。视觉传感器、人形本体这类硬件，更多是阶段性产物。对模型公司而言，如果技术不能在本体上形成产品闭环、兑现客户价值，模型本身就没有说服力。

所以我们先自研硬件完成价值闭环，验证模型能力；等行业生态成熟后，再逐步向上游技术输出的方向走。比如工业场景中，我们已经能驱动大量成熟的第三方协作臂；未来人形硬件生态完善后，我们的大脑也会适配更多第三方本体。

提问：今年具身智能融资很热，投资人的关注点有什么变化？跨维打动他们的是什么？

贾奎：最大的变化是，春节一过，行业就开始关注机器人能不能干活。宇树上过春晚后，大家反而觉得动作表演已经到了一定阶段，接下来要看机器人能不能解决真实问题。

技术层面，投资人的关注点也更务实：从 VLA 的局限性延伸到世界模型，再下沉到数据基建，包括真实数据、合成数据的体系建设。经过两年多发展，行业对技术的理解越来越深。

跨维打动投资人的核心有两点。第一是我们坚持具身智能的本质，即建立在通用能力基础上的边界内泛化，机器人的上肢作业能力必须匹配真实场景需求，覆盖工业与商业服务场景。另外就是要算得过账。从数据到模型，再到本体能力，要更高效、更低成本，也要在商业上成立。

我们一直从第一性原理出发，跑通技术—产品—产业的完整价值闭环。业务层面，我们今年上半年营收约 1 亿元，全年预计 2.5 亿 -3 亿元。叠加 DexWorldModel、Dexterity-BEV 等底层技术储备，投资人认可我们不是只有远期叙事，而是正在逐一完成场景闭环验证。

提问：蓝思科技是如何成为跨维股东的？

贾奎：蓝思原本就是我们的客户。我们将模型搭载在 PickWiz 等具身软件产品中，配合传感器在蓝思产线落地柔性分拣、柔性装配等任务，双方一直有深度业务连接。蓝思投资相关负责人，以及周群飞女士本人，都多次来过公司。他们核心认可的，是我们用具身智能技术解决工业真实问题的能力。

成为股东后，双方的产业协同会进一步深化，后续双方会展开更多合作。

提问：跨维提出的 Physical Token 经济学，和你提到的 " 算得过账 "，应该如何理解？

贾奎：大语言模型的 Token 经济学已经形成行业共识，研发、调用、成本的逻辑都很清晰。

具身智能、物理 AI 的逻辑与之相似，但核心差异在于：价值消耗发生在真实世界的物理载体上，消耗 Token 的主体不是人或程序员，而是机器人。如果简单算账就会发现，当前很多路径在商业上根本不成立。

机器人产出的每一个 Physical Token，只要对应客户价值，就必须核算全链路成本，从模型训练到推理，全流程都要讲效率。比如预训练的真实数据获取、后训练的合成数据生成、数据训练模型的效率与成本，如果世界模型的建模方式错误，数据利用率会指数级降低。

模型层面同理，用超大模型解决小边界内的任务，本身就不经济，也会推高推理的 Token 成本。因此 Physical Token 经济学不是简单的计费体系，而是一套完整的方法论：从底层数据基建、模型架构，到本体适配、通才到专才的落地路径、边界内泛化的策略，重新定义通用具身智能的投入、实现、应用与变现逻辑。我们的核心理念，就是让机器人产品实现最高的 ROI per Physical Token。

提问：融资之后，资金主要投向哪里？

贾奎：这轮融资是我们 IPO 进程中的关键一步。资金主要投向两个方向：一是落地行业真实需求，通过技术落地实现生产力提升与降本增效；二是持续投入底层创新，夯实数据、模型、算力等物理 AI 的核心能力。这两件事并不割裂。只有底层技术能力持续突破，机器人在更多真实场景中的成本、效率与 ROI 才能真正成立，商业闭环才能持续跑通。

2.VLA 之后，重新理解物理世界

提问：真正适配物理场景、可商业化的具身世界模型，应该是什么样的？

贾奎：正本清源地讲，世界模型必须是学习到世界内在运行规律的模型。

不是生成一段机器人视频就叫世界模型。落到三维物理世界的感知、理解与执行，它要学习的是如何让机器人在正确坐标系下完成动作、执行任务。

无论各家路线差异多大，最终都要回归本质：是否对三维物理世界完成建模，是否学到对应的数据模型，是否具备潜在动力学能力。进入具身智能领域后，世界模型会快速收敛到一个实际标准：生成的数据训练出的模型，能否让机器人高成功率完成任务。

提问：和其他企业相比，跨维智能的世界模型有什么不同？

贾奎：世界模型重新被行业重视，核心原因是过去两年多的实践证明，VLA（视觉 - 语言 - 动作模型）很难解决具身智能模型的通用泛化性问题。

此前以 PI 为代表的 VLA 范式本质是捷径学习，靠视觉输入加语言目标直接输出动作，但大量真机数据验证下来，这种方式泛化学习效率极低。对 AI 来说，数据与模型一体两面，并非堆数据就能提升效果，错误建模方式下的学习效率，可能比正确方式低 1000 倍、1 万倍甚至 100 万倍。

Sora 这类视频生成看似掌握了世界规律，实则没有触达世界机理——世界的机理不是二维图像、不是 RGB 像素空间，而是三维的、物理的。

跨维的世界模型有两个核心特点：第一，它在潜在空间中采用的是时空表征，面对的是机器人运动、动作生成和三维物理空间，而不是生成给人看的二维视频；第二，我们发布的 Dexterity-BEV，将无人驾驶领域的 BEV 技术升级到三维物理世界，把视觉、力、电机等多源异构数据统一到同一坐标空间。

结合潜在空间时空表征，世界模型的输入输出表征得以统一，从数据利用效率、模型学习效率到推理执行效果，才能真正打开局面。

DexWorldModel 也遵循同一思路，我们不追求直接生成 RGB 视频帧，而是生成可支撑机器人精准执行的隐空间特征。包括后续配套的细粒度语言对齐大规模数据集，目标都是让世界模型在正确范式下迭代，更快提升机器人任务的通用能力与零样本能力。

提问：跨维在世界模型和 Dexterity-BEV 上的一些理念，后来也看到阿里、李飞飞、特斯拉、英伟达等大厂或头部团队在往类似方向走。你怎么看这种行业收敛？会焦虑吗？

贾奎：这是非常值得欢迎的事。如果你提出的方向永远没人跟进，反而大概率是错的，行业技术本来就是共创的。比如我们发布 Dexterity-BEV 后不久，阿里也推出了非常接近的技术，说明行业确实在往正确方向演进。

世界模型落地具身智能，最终一定会收敛到正确的建模方式。要真正解决机器人在三维物理世界的感知、理解与执行问题，就不可能停留在 RGB 像素空间，也不能只停留在视频生成层面。

提问：如果朝完全的 Physical AGI 走，目前行业最大的卡点是什么？跨维的破局思路是什么？

贾奎：如果追求完全的 Physical AGI，也就是单个模型通吃所有任务与场景，那么预训练阶段需要海量真实数据，模型需要掌握人类完成各类任务的方式；后训练阶段也需要极高精度的数据，支撑机器人不同动作的训练，这些都需要更长时间去规模化扩充。

模型侧的压力相对更小，只要建模与表征方式正确，就可以持续推进。如果不想等 5 年、10 年甚至 20 年才看到世界模型的价值闭环，正确的路径是先划定应用场景的边界。

这个边界不是我们人为设定的，而是场景本身就有边界。就像顶尖外科医生的能力边界是手术，不需要同时精通川菜烹饪，人的能力本身就是有边界的。在场景边界内，用正确的技术范式从数据、模型到训练体系全链路落地，解决边界内的通用泛化性，达到产品级智能水平。通过逐个落地边界内的通用能力，再逐步扩大边界，最终才能实现更通用的具身智能。

提问：跨维一直强调仿真与合成数据。它在具身智能里具体解决什么问题？和真实场景数据是怎么分工的？

贾奎：具身智能需要的泛化性至少分两类：一类是语义泛化性（Semantic generalization），一类是物理泛化性（Physical generalization）。

语义泛化性，就是看到任务场景就知道对应动作，取决于对操作对象、物料与环境的理解，这部分数据必须来自真实数据，本质就是人类行为数据。物理泛化性对应的是环境变化、物体位置偏移、干扰物出现、材质改变这类场景，对应的需求完全可以通过仿真高效生成数据来满足，不需要依赖真实采集。

我们从不否定真实数据的价值，也不认为合成数据能解决所有问题，只是坚持从第一性原理出发，用对应的数据类型解决不同维度的泛化问题。具体分工上，第一视角（egocentric）这类以人为中心（human centric）的数据能解决语义泛化，但精度不足，更适合用于预训练；合成数据主要用于后训练，保障模型达到高精度、高稳定性、高成功率的产品级标准。

在后训练阶段，我们完全可以通过合成数据实现目标。真实数据采集方面，我们从一开始就认为真机遥操的模式效率太低。一名操作员一天只能产出 100 到 150 条数据，靠这种方式积累语义泛化所需的真实数据，可能需要 10 万年。

所以我们很早就提出基于第一视角的裸手采集方案：操作者不需要戴手套、不需要通用操作接口（UMI），正常完成操作即可，通过头部摄像头实时跟踪手部与腕部轨迹，提取三维动作数据。这同样属于真实数据，也是更接近通用泛化终极目标的数据范式。

提问：生成式仿真具体怎么提升项目交付和复制效率？

贾奎：我们在仿真与合成数据领域布局很早。2019 年，我们就在 NeurIPS 上发表过完全用合成数据训练的端到端抓取模型，对未知物体的抓取成功率达到百分之八九十。

但物理仿真本身不等于具身智能。具身智能引擎的核心，不只是模拟物理过程，而是打通物理仿真、虚拟传感器、合成数据生成、模型训练到真实世界部署的完整闭环。模型要能驱动不同本体形成技能，并且在真实场景中达到产品级成功率。

生成式仿真的变化在于，它把原来高度依赖工程师手工搭建的任务环境，变成了自动化生成。过去一个新任务要先手搓环境，现在只需要输入一张图片和一段任务描述，就能生成对应任务环境，再组织机器人在虚拟环境里完成动作、生成数据、训练模型。

它提升的不是单点成功率，而是整套工具链效率。比如半结构化泛智能制造场景的新任务，从造数据、训模型到落地可用，我们 6 到 8 个小时就能完成；人形机器人的新商业场景任务，几天内也可以落地，靠的就是这套自动化全链路能力。

提问：从学者和从业者的角度，你今年最关注的、大家还没有充分意识到的前沿技术是什么？

贾奎：首先肯定是生成式仿真的持续突破。生成式仿真是生成式 AI 皇冠上真正的明珠。

更长期来看，我更关注的是具身智能的通用泛化性，尤其是语义泛化能力，能不能逐步和具体机器人本体解耦。

每个人本身都是一个天然本体。如果模型能从人类在物理世界中的行为里学习预测能力，判断一个人接下来会怎么走、手臂会怎么动，就有机会把 " 理解物理世界中的行动规律 " 这件事从具体机器人形态中抽出来。

这也是物理 AI 继续往前走必须解决的问题。机器人只是物理 AI 的一种应用载体，更底层的问题是，AI 能不能真正学习人在物理世界中的行为、动作和意图，并把这种能力迁移到不同本体和不同任务上。

3. 从工厂到商场，机器人要先证明自己有用

提问：跨维在落地场景选择上有什么思考？为什么现阶段更聚焦工业和商业服务，而不是家庭、康养？

贾奎：一个场景要在商业上成立，技术、成本、价格、安全、隐私、社会接受度这些要素都得跟上。

我们会综合判断不同场景的就绪度，不是技术上做不了家庭、康养，而是现阶段它们的商业化条件还不成熟。工业和商业服务的需求更刚性，也更容易验证机器人的真实价值，更快形成价值闭环。

提问：外界比较熟悉的是跨维今年在全球妇女峰会上亮相的咖啡机器人。但跨维并不把咖啡当作主要方向？

贾奎：我们从来没把咖啡机当主要方向，它只是个呈现形式。我们是一家 " 大脑公司 "，核心是给不同本体赋予智能和通用泛化能力。

现在我们主要有两块业务：一块是赋能市面上主流的工业臂、协作臂，解决智能制造里的分拣、装配、插拔这类任务；另一块是用同样的算法驱动我们自己的人形本体，做人机交互类的商业服务和社会场景任务。它能操作咖啡机，也能操作冰箱、遥控器，做导览做服务，核心是能不能完成具体任务，不是做不做咖啡。

提问：跨维公司过去更偏软件、更多赋能工业场景。为什么做人形机器人时，先进入商业零售和文旅场景？合作模式是怎样的？

贾奎：我们之前提过 "AI 定义本体 " 的概念，我们关注的核心始终是 AI 怎么让本体更智能、更柔性。工业场景发展了几十年，已经有非常成熟的机械臂产业链和供应链，厂商缺的不是硬件，是眼睛和大脑。所以这一块我们更多是输出 AI 能力，赋能第三方机器人。

但人形、类人型的人机交互场景还没有成熟的生态，软件和本体需要从第一性原理出发一起打磨，才能给客户创造价值，这也是我们自己做人形本体的原因。落地商业零售、文旅这些场景，我们的理念是 Dexbot Inside，这借用了 Intel Inside 的说法，也就是用通用本体加技能模型，给客户创造增量价值。我们不自己运营场景，而是把加载了技能的本体卖给运营商，由他们在景区、门店、商厦里落地执行。

目前我们有几种合作方式：本体加技能包打包销售，或者单独卖硬件、技能包单独授权。我们也会逐步往 Physical Token 按量收费的模式推进。

提问：现在跨维人形机器人的出货量大概是什么水平？主要落地在哪些场景？

贾奎：上半年出货几百台，全年做到接近 1000 台没问题。我说的都是真正能干活的机器人，表演展示用的还不太一样。

场景主要分两块：一块是泛商业服务，比如文旅、商超、高端物业的迎宾导览；另一块今年起量很快，就是人形机器人进工业场景，补位过去固定机械臂、复合机器人做不了的复杂柔性作业。

提问：现在人形机器人的单价在持续下降。你怎么看这个趋势？对行业是利好吗？

贾奎：降价是必须走的路。价格是规模化的决定性因素，不把成本打下来，不管商业还是家庭场景都形不成闭环，也做不大。只有规模起来了，成本才能进一步下降，用户越多、价值越大，产业才能真正跑通。

从这个角度说，降价肯定是利好。我们也会在成本、价格和各方收益之间找平衡，让产业链上的参与者都能获益。

提问：公司从 0 做到亿级营收，商业化过程中最关键的因素是什么？

贾奎：最核心的一点，是你的技术栈、产品定义必须对准真实现场的问题。

比如成功率，95% 的实验室成功率在产品级场景里是没有意义的，落地就要求几乎不能出错。再比如精度，有的场景 1 厘米够用，有的要求 1 毫米甚至亚毫米，这些都得跟着现场需求走。

业务增长的本质，是找准当下阶段愿意为技术付费的场景，摸透行业的真实痛点，再看你的产品能不能解决。所以一定要扎到客户现场去，从真实需求反向定义技术和产品，而不是拿着技术找场景。

提问：这套商业化逻辑是公司成立之初就想清楚的吗？中间走过哪些弯路？

贾奎：坦白说一开始没有。我是高校老师出身，早期更习惯从技术出发，想的是 " 我的技术有多先进 "，会去秀一些别人做不出来的技术潜力。

但做企业终究要落地，要让技术产生真实价值。比较幸运的是，公司头两年还没出现具身智能风口，反而能沉下心按正常商业逻辑想问题：技术能用在哪？解决什么问题？客户为什么愿意付钱？这段没有风口的锤炼，让我们把技术和产品的平衡磨得更扎实。后面赛道热起来，我们反而能更快把理念落地，把业务做起来。

提问：跨维在全球化出海上有什么规划？重点布局哪些区域？

贾奎：我们从 2026 年 1 月 1 日开始系统性做产品出海。之前也有产品通过国内渠道卖到海外，今年是正式体系化运作。我们的出海抓手很全，大脑软件、视觉传感器、本体都可以输出，覆盖海外工业和商业服务场景。这些场景对劳动力替代的需求在欧美、日韩更刚性。我们做 toB 业务，核心是先搭建好海外营销和代理体系，产品认证这些前置工作也都在同步推进。

区域上我们重点布局欧洲、日韩、新加坡和东南亚。大脑软件和传感器落地会更快，比如德国的工厂业务已经在推进；人形机器人先在国内工厂打磨成熟，再逐步拓展海外。

提问：长期来看，你理想中的跨维智能是什么样子？

贾奎：长期和短期，本质是一件事，这条路足够长，我们的核心目标就是做 Physical AGI。机器人硬件看起来是硬的，但内核是让机器在物理世界里像人一样做事。未来它可以进工厂、进商场、进家庭，应用场景会不断拓展，公司的生命周期也会很长，核心目标始终是让机器人更聪明、能干更多活。但落地一定要务实，不管工业还是商业，都要对准具体场景、解决具体问题。长期目标很远大，短期就是把眼前的一件件事做实。

（封面图及文中图片来源：跨维智能）

END.

宙世代

一起剪

相关标签