
定义 Physical Token 经济学。
作者|田思奇
编辑|栗子
" 春节一过,行业就开始关注机器人能不能干活了。"
具身智能行业不缺少宏大叙事。Physical AGI 的想象足够迷人。但跨维智能创始人贾奎关心的是,一台人形机器人在工厂的每一次作业,会消耗多少数据、算力、硬件成本?客户能获得多少回报?
这些问题被贾奎统称作"Physical Token 经济学 "。在他看来,物理 AI 不能只依赖巨量投入和宏大叙事。" 目前行业最大的问题确实是太浮躁了," 贾奎说。" 你天天秀 Demo,总得拿出点可以解决问题的东西。"
贾奎是香港中文大学(深圳)终身教授,国内最早深耕空间智能和三维数据生成的学者之一。2021 年创办跨维智能后,他试图把这些底层研究从论文和 Demo 中拉出来,变成能进入真实场景、产生商业价值的物理 AI 系统。

跨维智能创始人贾奎
5 年来,跨维智能已在 50 多个细分行业部署了超 1500 个具身智能模型,产品覆盖机器人大脑、空间智能传感器和人形本体,自研 DexWorldModel 登顶 WorldArena 全球榜单。

公司近期完成 10 亿元B 轮融资,投后估值超100 亿元,投资方包括连投两轮的深创投、贵阳数字经济基金,原有股东南山战新投、成都科创投、四川院士基金追加跟投,以及新入局的前海母基金、蓝思科技、工银资本、恒健资产、诸瑞资本等。
这家今年营收预计达 2.5-3 亿元的公司,正冲刺世界模型赛道第一股。
围绕 Physical Token 经济学和对具身智能商业化路径的判断,贾奎在对谈中系统解释了跨维智能的技术路线、世界模型选择,以及工业和商业服务场景中的落地进展。以下为贾奎公开访谈内容,经「甲子光年」整理。
1. 融资热之后,具身智能进入算账周期
提问:如何向不太了解跨维智能的人介绍这家公司?
贾奎:跨维是一家物理 AI 公司,核心是用 AI 构建三维物理世界,以最高性价比的范式训练模型完成感知、决策到执行的闭环,驱动本体完成柔性作业。
我们的使命是将通用 AI 能力推向物理世界。尽管挑战很大,但我们希望通过底层技术研发,落地通用泛化能力、控制成本,真正释放工业与商业场景的应用价值。AI 的本质是降本增效,物理 AI 的核心就是赋能本体,让其在真实场景中产生价值。
提问:跨维 2021 年成立时,具身智能还不是今天这样的风口。外界最早认识跨维,更多是从工业机械臂这样的场景开始;但这两年,行业叙事迅速转向具身智能、世界模型和人形机器人。回头看,真正推动跨维战略和技术演进的,是新一轮 AI 技术的出现,还是客户需求和场景变化?
贾奎:从 2016 年开始的非常早的学术研究,到 2021 年公司成立,我们始终在做同一件事:用 AI 解决三维物理世界的感知、决策与执行问题。无论是早期的工业场景,还是现在的商业服务、人形机器人,底层逻辑完全一致,核心都是围绕高效数据生成、模型训练、本体适配、跨场景泛化,以及精度与稳定性的打磨。
2021 年我们优先切入工业场景,是因为工业场景的社会与商业就绪度最高,对具身智能的需求最刚性——技术达标,客户就愿意付费。具身智能的风口确实带来了变化:社会、政府和客户对新技术的接受度明显提升。2021 到 2023 年上半年,很多客户听不懂我们的技术,现在的市场环境已经完全不同。

提问:外界看跨维,好像既有大脑软件,也有传感器和人形本体,还做工业和商业服务。这几条线之间的关系是什么?
贾奎:跨维最核心的底座是自研 DexVerse 具身智能引擎。AI 落地三维物理世界,要解决 3D 感知定位、驱动机器人执行任务,必须依托底层引擎能力,实现高效数据获取、模型训练与复杂技能支持。视觉传感器、人形本体这类硬件,更多是阶段性产物。对模型公司而言,如果技术不能在本体上形成产品闭环、兑现客户价值,模型本身就没有说服力。
所以我们先自研硬件完成价值闭环,验证模型能力;等行业生态成熟后,再逐步向上游技术输出的方向走。比如工业场景中,我们已经能驱动大量成熟的第三方协作臂;未来人形硬件生态完善后,我们的大脑也会适配更多第三方本体。
提问:今年具身智能融资很热,投资人的关注点有什么变化?跨维打动他们的是什么?
贾奎:最大的变化是,春节一过,行业就开始关注机器人能不能干活。宇树上过春晚后,大家反而觉得动作表演已经到了一定阶段,接下来要看机器人能不能解决真实问题。
技术层面,投资人的关注点也更务实:从 VLA 的局限性延伸到世界模型,再下沉到数据基建,包括真实数据、合成数据的体系建设。经过两年多发展,行业对技术的理解越来越深。
跨维打动投资人的核心有两点。第一是我们坚持具身智能的本质,即建立在通用能力基础上的边界内泛化,机器人的上肢作业能力必须匹配真实场景需求,覆盖工业与商业服务场景。另外就是要算得过账。从数据到模型,再到本体能力,要更高效、更低成本,也要在商业上成立。
我们一直从第一性原理出发,跑通技术—产品—产业的完整价值闭环。业务层面,我们今年上半年营收约 1 亿元,全年预计 2.5 亿 -3 亿元。叠加 DexWorldModel、Dexterity-BEV 等底层技术储备,投资人认可我们不是只有远期叙事,而是正在逐一完成场景闭环验证。
提问:蓝思科技是如何成为跨维股东的?
贾奎:蓝思原本就是我们的客户。我们将模型搭载在 PickWiz 等具身软件产品中,配合传感器在蓝思产线落地柔性分拣、柔性装配等任务,双方一直有深度业务连接。蓝思投资相关负责人,以及周群飞女士本人,都多次来过公司。他们核心认可的,是我们用具身智能技术解决工业真实问题的能力。
成为股东后,双方的产业协同会进一步深化,后续双方会展开更多合作。
提问:跨维提出的 Physical Token 经济学,和你提到的 " 算得过账 ",应该如何理解?
贾奎:大语言模型的 Token 经济学已经形成行业共识,研发、调用、成本的逻辑都很清晰。
具身智能、物理 AI 的逻辑与之相似,但核心差异在于:价值消耗发生在真实世界的物理载体上,消耗 Token 的主体不是人或程序员,而是机器人。 如果简单算账就会发现,当前很多路径在商业上根本不成立。
机器人产出的每一个 Physical Token,只要对应客户价值,就必须核算全链路成本,从模型训练到推理,全流程都要讲效率。比如预训练的真实数据获取、后训练的合成数据生成、数据训练模型的效率与成本,如果世界模型的建模方式错误,数据利用率会指数级降低。
模型层面同理,用超大模型解决小边界内的任务,本身就不经济,也会推高推理的 Token 成本。 因此 Physical Token 经济学不是简单的计费体系,而是一套完整的方法论:从底层数据基建、模型架构,到本体适配、通才到专才的落地路径、边界内泛化的策略,重新定义通用具身智能的投入、实现、应用与变现逻辑。我们的核心理念,就是让机器人产品实现最高的 ROI per Physical Token。
提问:融资之后,资金主要投向哪里?
贾奎:这轮融资是我们 IPO 进程中的关键一步。资金主要投向两个方向:一是落地行业真实需求,通过技术落地实现生产力提升与降本增效;二是持续投入底层创新,夯实数据、模型、算力等物理 AI 的核心能力。这两件事并不割裂。只有底层技术能力持续突破,机器人在更多真实场景中的成本、效率与 ROI 才能真正成立,商业闭环才能持续跑通。
2.VLA 之后,重新理解物理世界
提问:真正适配物理场景、可商业化的具身世界模型,应该是什么样的?
贾奎:正本清源地讲,世界模型必须是学习到世界内在运行规律的模型。
不是生成一段机器人视频就叫世界模型。落到三维物理世界的感知、理解与执行,它要学习的是如何让机器人在正确坐标系下完成动作、执行任务。
无论各家路线差异多大,最终都要回归本质:是否对三维物理世界完成建模,是否学到对应的数据模型,是否具备 潜在动力学能力。进入具身智能领域后,世界模型会快速收敛到一个实际标准:生成的数据训练出的模型,能否让机器人高成功率完成任务。

提问:和其他企业相比,跨维智能的世界模型有什么不同?
贾奎:世界模型重新被行业重视,核心原因是过去两年多的实践证明,VLA(视觉 - 语言 - 动作模型)很难解决具身智能模型的通用泛化性问题。
此前以 PI 为代表的 VLA 范式本质是捷径学习,靠视觉输入加语言目标直接输出动作,但大量真机数据验证下来,这种方式泛化学习效率极低。对 AI 来说,数据与模型一体两面,并非堆数据就能提升效果,错误建模方式下的学习效率,可能比正确方式低 1000 倍、1 万倍甚至 100 万倍。
Sora 这类视频生成看似掌握了世界规律,实则没有触达世界机理——世界的机理不是二维图像、不是 RGB 像素空间,而是三维的、物理的。
跨维的世界模型有两个核心特点:第一,它在潜在空间中采用的是时空表征,面对的是机器人运动、动作生成和三维物理空间,而不是生成给人看的二维视频;第二,我们发布的 Dexterity-BEV,将无人驾驶领域的 BEV 技术升级到三维物理世界,把视觉、力、电机等多源异构数据统一到同一坐标空间。
结合潜在空间时空表征,世界模型的输入输出表征得以统一,从数据利用效率、模型学习效率到推理执行效果,才能真正打开局面。
DexWorldModel 也遵循同一思路,我们不追求直接生成 RGB 视频帧,而是生成可支撑机器人精准执行的隐空间特征。包括后续配套的细粒度语言对齐大规模数据集,目标都是让世界模型在正确范式下迭代,更快提升机器人任务的通用能力与零样本能力。
提问:跨维在世界模型和 Dexterity-BEV 上的一些理念,后来也看到阿里、李飞飞、特斯拉、英伟达等大厂或头部团队在往类似方向走。你怎么看这种行业收敛?会焦虑吗?
贾奎:这是非常值得欢迎的事。如果你提出的方向永远没人跟进,反而大概率是错的,行业技术本来就是共创的。比如我们发布 Dexterity-BEV 后不久,阿里也推出了非常接近的技术,说明行业确实在往正确方向演进。
世界模型落地具身智能,最终一定会收敛到正确的建模方式。要真正解决机器人在三维物理世界的感知、理解与执行问题,就不可能停留在 RGB 像素空间,也不能只停留在视频生成层面。
提问:如果朝完全的 Physical AGI 走,目前行业最大的卡点是什么?跨维的破局思路是什么?
贾奎:如果追求完全的 Physical AGI,也就是单个模型通吃所有任务与场景,那么预训练阶段需要海量真实数据,模型需要掌握人类完成各类任务的方式;后训练阶段也需要极高精度的数据,支撑机器人不同动作的训练,这些都需要更长时间去规模化扩充。
模型侧的压力相对更小,只要建模与表征方式正确,就可以持续推进。如果不想等 5 年、10 年甚至 20 年才看到世界模型的价值闭环,正确的路径是先划定应用场景的边界。

这个边界不是我们人为设定的,而是场景本身就有边界。就像顶尖外科医生的能力边界是手术,不需要同时精通川菜烹饪,人的能力本身就是有边界的。在场景边界内,用正确的技术范式从数据、模型到训练体系全链路落地,解决边界内的通用泛化性,达到产品级智能水平。通过逐个落地边界内的通用能力,再逐步扩大边界,最终才能实现更通用的具身智能。
提问:跨维一直强调仿真与合成数据。它在具身智能里具体解决什么问题?和真实场景数据是怎么分工的?
贾奎:具身智能需要的泛化性至少分两类:一类是语义泛化性(Semantic generalization),一类是物理泛化性(Physical generalization)。
语义泛化性,就是看到任务场景就知道对应动作,取决于对操作对象、物料与环境的理解,这部分数据必须来自真实数据,本质就是人类行为数据。 物理泛化性对应的是环境变化、物体位置偏移、干扰物出现、材质改变这类场景,对应的需求完全可以通过仿真高效生成数据来满足,不需要依赖真实采集。
我们从不否定真实数据的价值,也不认为合成数据能解决所有问题,只是坚持从第一性原理出发,用对应的数据类型解决不同维度的泛化问题。 具体分工上,第一视角(egocentric)这类以人为中心(human centric)的数据能解决语义泛化,但精度不足,更适合用于预训练;合成数据主要用于后训练,保障模型达到高精度、高稳定性、高成功率的产品级标准。
在后训练阶段,我们完全可以通过合成数据实现目标。真实数据采集方面,我们从一开始就认为真机遥操的模式效率太低。一名操作员一天只能产出 100 到 150 条数据,靠这种方式积累语义泛化所需的真实数据,可能需要 10 万年。
所以我们很早就提出基于第一视角的裸手采集方案:操作者不需要戴手套、不需要通用操作接口(UMI),正常完成操作即可,通过头部摄像头实时跟踪手部与腕部轨迹,提取三维动作数据。这同样属于真实数据,也是更接近通用泛化终极目标的数据范式。
提问:生成式仿真具体怎么提升项目交付和复制效率?
贾奎:我们在仿真与合成数据领域布局很早。2019 年,我们就在 NeurIPS 上发表过完全用合成数据训练的端到端抓取模型,对未知物体的抓取成功率达到百分之八九十。
但物理仿真本身不等于具身智能。具身智能引擎的核心,不只是模拟物理过程,而是打通物理仿真、虚拟传感器、合成数据生成、模型训练到真实世界部署的完整闭环。模型要能驱动不同本体形成技能,并且在真实场景中达到产品级成功率。
生成式仿真的变化在于,它把原来高度依赖工程师手工搭建的任务环境,变成了自动化生成。过去一个新任务要先手搓环境,现在只需要输入一张图片和一段任务描述,就能生成对应任务环境,再组织机器人在虚拟环境里完成动作、生成数据、训练模型。
它提升的不是单点成功率,而是整套工具链效率。比如半结构化泛智能制造场景的新任务,从造数据、训模型到落地可用,我们 6 到 8 个小时就能完成;人形机器人的新商业场景任务,几天内也可以落地,靠的就是这套自动化全链路能力。
提问:从学者和从业者的角度,你今年最关注的、大家还没有充分意识到的前沿技术是什么?
贾奎:首先肯定是生成式仿真的持续突破。生成式仿真是生成式 AI 皇冠上真正的明珠。
更长期来看,我更关注的是具身智能的通用泛化性,尤其是语义泛化能力,能不能逐步和具体机器人本体解耦。
每个人本身都是一个天然本体。如果模型能从人类在物理世界中的行为里学习预测能力,判断一个人接下来会怎么走、手臂会怎么动,就有机会把 " 理解物理世界中的行动规律 " 这件事从具体机器人形态中抽出来。
这也是物理 AI 继续往前走必须解决的问题。机器人只是物理 AI 的一种应用载体,更底层的问题是,AI 能不能真正学习人在物理世界中的行为、动作和意图,并把这种能力迁移到不同本体和不同任务上。

3. 从工厂到商场,机器人要先证明自己有用
提问:跨维在落地场景选择上有什么思考?为什么现阶段更聚焦工业和商业服务,而不是家庭、康养?
贾奎:一个场景要在商业上成立,技术、成本、价格、安全、隐私、社会接受度这些要素都得跟上。
我们会综合判断不同场景的就绪度,不是技术上做不了家庭、康养,而是现阶段它们的商业化条件还不成熟。工业和商业服务的需求更刚性,也更容易验证机器人的真实价值,更快形成价值闭环。
提问:外界比较熟悉的是跨维今年在全球妇女峰会上亮相的咖啡机器人。但跨维并不把咖啡当作主要方向?
贾奎:我们从来没把咖啡机当主要方向,它只是个呈现形式。我们是一家 " 大脑公司 ",核心是给不同本体赋予智能和通用泛化能力。
现在我们主要有两块业务:一块是赋能市面上主流的工业臂、协作臂,解决智能制造里的分拣、装配、插拔这类任务;另一块是用同样的算法驱动我们自己的人形本体,做人机交互类的商业服务和社会场景任务。它能操作咖啡机,也能操作冰箱、遥控器,做导览做服务,核心是能不能完成具体任务,不是做不做咖啡。

提问:跨维公司过去更偏软件、更多赋能工业场景。为什么做人形机器人时,先进入商业零售和文旅场景?合作模式是怎样的?
贾奎:我们之前提过 "AI 定义本体 " 的概念,我们关注的核心始终是 AI 怎么让本体更智能、更柔性。 工业场景发展了几十年,已经有非常成熟的机械臂产业链和供应链,厂商缺的不是硬件,是眼睛和大脑。所以这一块我们更多是输出 AI 能力,赋能第三方机器人。
但人形、类人型的人机交互场景还没有成熟的生态,软件和本体需要从第一性原理出发一起打磨,才能给客户创造价值,这也是我们自己做人形本体的原因。 落地商业零售、文旅这些场景,我们的理念是 Dexbot Inside,这借用了 Intel Inside 的说法,也就是用通用本体加技能模型,给客户创造增量价值。我们不自己运营场景,而是把加载了技能的本体卖给运营商,由他们在景区、门店、商厦里落地执行。
目前我们有几种合作方式:本体加技能包打包销售,或者单独卖硬件、技能包单独授权。我们也会逐步往 Physical Token 按量收费的模式推进。
提问:现在跨维人形机器人的出货量大概是什么水平?主要落地在哪些场景?
贾奎:上半年出货几百台,全年做到接近 1000 台没问题。我说的都是真正能干活的机器人,表演展示用的还不太一样。
场景主要分两块:一块是泛商业服务,比如文旅、商超、高端物业的迎宾导览;另一块今年起量很快,就是人形机器人进工业场景,补位过去固定机械臂、复合机器人做不了的复杂柔性作业。
提问:现在人形机器人的单价在持续下降。你怎么看这个趋势?对行业是利好吗?
贾奎:降价是必须走的路。价格是规模化的决定性因素,不把成本打下来,不管商业还是家庭场景都形不成闭环,也做不大。只有规模起来了,成本才能进一步下降,用户越多、价值越大,产业才能真正跑通。
从这个角度说,降价肯定是利好。我们也会在成本、价格和各方收益之间找平衡,让产业链上的参与者都能获益。
提问:公司从 0 做到亿级营收,商业化过程中最关键的因素是什么?
贾奎:最核心的一点,是你的技术栈、产品定义必须对准真实现场的问题。
比如成功率,95% 的实验室成功率在产品级场景里是没有意义的,落地就要求几乎不能出错。再比如精度,有的场景 1 厘米够用,有的要求 1 毫米甚至亚毫米,这些都得跟着现场需求走。
业务增长的本质,是找准当下阶段愿意为技术付费的场景,摸透行业的真实痛点,再看你的产品能不能解决。所以一定要扎到客户现场去,从真实需求反向定义技术和产品,而不是拿着技术找场景。
提问:这套商业化逻辑是公司成立之初就想清楚的吗?中间走过哪些弯路?
贾奎:坦白说一开始没有。我是高校老师出身,早期更习惯从技术出发,想的是 " 我的技术有多先进 ",会去秀一些别人做不出来的技术潜力。
但做企业终究要落地,要让技术产生真实价值。比较幸运的是,公司头两年还没出现具身智能风口,反而能沉下心按正常商业逻辑想问题:技术能用在哪?解决什么问题?客户为什么愿意付钱? 这段没有风口的锤炼,让我们把技术和产品的平衡磨得更扎实。后面赛道热起来,我们反而能更快把理念落地,把业务做起来。
提问:跨维在全球化出海上有什么规划?重点布局哪些区域?
贾奎:我们从 2026 年 1 月 1 日开始系统性做产品出海。之前也有产品通过国内渠道卖到海外,今年是正式体系化运作。 我们的出海抓手很全,大脑软件、视觉传感器、本体都可以输出,覆盖海外工业和商业服务场景。这些场景对劳动力替代的需求在欧美、日韩更刚性。我们做 toB 业务,核心是先搭建好海外营销和代理体系,产品认证这些前置工作也都在同步推进。
区域上我们重点布局欧洲、日韩、新加坡和东南亚。大脑软件和传感器落地会更快,比如德国的工厂业务已经在推进;人形机器人先在国内工厂打磨成熟,再逐步拓展海外。
提问:长期来看,你理想中的跨维智能是什么样子?
贾奎:长期和短期,本质是一件事,这条路足够长,我们的核心目标就是做 Physical AGI。 机器人硬件看起来是硬的,但内核是让机器在物理世界里像人一样做事。未来它可以进工厂、进商场、进家庭,应用场景会不断拓展,公司的生命周期也会很长,核心目标始终是让机器人更聪明、能干更多活。 但落地一定要务实,不管工业还是商业,都要对准具体场景、解决具体问题。长期目标很远大,短期就是把眼前的一件件事做实。
(封面图及文中图片来源:跨维智能)
END.


登录后才可以发布评论哦
打开小程序可以发布评论哦