雷锋网 19小时前
对话鹿明CTO丁琰:数据会反向决定模型,甚至影响硬件形态
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

数据采集,向来是具身智能行业的一大难题。成本、精度、泛化能力,似乎构成一个不可能三角,能找到一个可以落地的平衡点已十分不易。

在此背景下,2025 年 11 月中旬 Sunday Robotics 横空出世,向全世界的具身智能公司证明了 UMI 方案的可行性。一时之间,UMI 的行业关注度空前高涨。

而在国内,丁琰博士的数采方案「FastUMI」同样惊艳四座,凭借低成本、高数据质量、快速部署等特点深受行业青睐,被视为具身智能数据采集的新范式。

实际上,丁琰博士是国内最早将 UMI 落地实践的从业者。从上海 AI Lab 到一星机器人,再到如今的鹿明机器人,他始终专注于 UMI 的研究与推动,即便在早期这一方向并不被大部分人看好,他也依然坚持投入。时至今日,终于迎来"守得云开见月明"的时刻。

对于 UMI,丁琰博士有着独特的理解。他将 UMI 视为一套完整体系,而非单纯的数采工具;他的目标清晰,希望把 UMI 打造成像 AK47 一样"简单、可靠、低成本、好用"的工业级基础设施;同时,他深知数采背后真正的难点,除技术之外,更考验流程组织、人员管理与执行体系的复杂性。

今年由 GAIR 研究院与雷峰网联合主办的「第八届 GAIR 全球人工智能与机器人大会」上,我们有幸邀请到了丁琰博士参与圆桌会谈,分享他关于数据与 UMI 的深刻洞见。

在大会之前,雷峰网与丁琰博士展开了一场深入对话,以便与会者探讨交流。

UMI不只是一种数采方式,而是一整套体系

AI科技评论:你之前说在一星有"没做完的事情",这个事情是指什么?FastUMI 算是其中之一吗?

丁琰:可以说,我是中国大陆最早投入 UMI 的人,从 2024 年 3 月开始,我就坚定地押注这条路线,在当时,UMI在国内还是极其小众的方向,整个中国具身智能圈几乎没有人公开选择 UMI 这条路线。

大家对 UMI 理解往往偏于表面,会把它看成一种数据采集方式,但在我看来,UMI 是一整套完整的方法论和体系。数据会反过来决定模型、系统架构、采集流程、算法设计,甚至影响硬件形态——整个链条都会因此发生变化。正因如此,我始终坚信 UMI 的前景,也非常希望把这件事真正做成。但当一件自己倾注心力的事业突然中断时,打击是难免的。没来得及做完的事太多:我们规划的产品路线、硬件怎么走、数据怎么建体系、模型怎么迭代、场景如何落地、生态如何构建、又如何与全球顶尖公司竞争……这些都还在路上,都属于"未竟之业"。

另一层"没做完的事",是关于我个人的。我决定离开学术界进入工业界,是下了很大决心的。我希望能在工业界扎下根,做出一些真正的成绩,也让自己学到新的东西。相比学术圈,工业界的环境要复杂得多,人是最重要也是最难的部分——你需要与各种角色打交道:技术、采购、销售、财务、供应商、投资人……沟通和协作的成本远超想象。这些虽然与技术本身无关,却是我必须面对的一种成长与考验。而对我来说,这些考验似乎才刚刚开始,却被迫按下了暂停键。所以,我希望能在鹿明继续把这件事情做下去,把它真正做完。

AI科技评论:从一星到鹿明的过程是怎样的?

丁琰:一星这事在业内比较少见。很多人是在今年 6 月份加入一星,而我从 4 月份就开始组建一星的技术团队,到 10 月份公司关闭,总共经历了 6 个月。这半年里,整个技术团队都是由我从零搭建的,技术路线也是我在确定;数据体系、模型方案、产品规划等核心内容也都由我主导。整个技术版图其实非常宏大,按正常节奏至少需要两年才能完整落地,我们已经规划了多条产品线与技术路线。但一切都在没有预兆的情况下戛然而止。

9 月 30 日凌晨,我还在韩国参加展会,突然接到通知说一星即将被注销。我马上从韩国赶回苏州,落地之后公司就启动了注销流程,根本来不及反应。到 10 月 13 日,全员都已经签完了离职协议。那段时间,各种公司和投资人几乎每天都在联系我,每一家都有自己的吸引点和优势,也让我必须尽快做出判断。

AI科技评论:鹿明有哪些吸引你的地方?

丁琰:鹿明是很有特色的一个公司,CEO 本身是技术背景,清华本硕出身,对 UMI 方向始终抱有强烈的愿景与坚持。我是 11 月 2 号加入的鹿明,当时 UMI 在行业内还没有真正火起来——直到11月中旬,Generalist 和 Sunday Robotics 展示了他们基于 UMI 的成果,才让整个具身智能领域为之震撼。也正因为如此,在10月底的时候,国内几乎没有人愿意在 UMI 上 all in。

但鹿明与众不同,创始团队从一开始就坚定地要在 UMI 上重注发力,这种判断力与决心正是吸引我加入的关键原因。

AI科技评论:同为鹿明CTO,你和曹俊亮博士的分工合作是怎样的?

丁琰:我们之间的交流非常密切。我本身并非做硬件出身,因此在产品设计上非常依赖曹博的支持。比如我们计划推出力控版本、平动版本、非平动版本以及便携版本等多条产品线,曹博凭借丰富的量产经验,能帮助我补齐在硬件方面的短板。同时,曹博在做产品时也需要算法团队的支撑。例如,他希望小型人形机器人能够执行某些操作,就会来咨询我,让我们从算法需求的角度参与定义硬件,而不是仅凭物理结构去做设计。我们就是通过这样软硬件的深度协同,才能共同打磨出真正极致的产品。

优秀的数采方案,应该像「AK47」一样

AI科技评论:你从什么时候开始做UMI的?

丁琰:我在 2024 年 3 月正式启动了与 UMI 类似的新项目,4 月回国后便在上海 AI Lab 全力投入相关研究,一直持续到 2025 年 6 月底离职。在这一年多的时间里,我几乎把全部精力都放在这件事上,期间发表的三四篇论文也都围绕 FastUMI 展开。因为有足够长时间的技术积累,我们在实验室阶段把所有关键路线、可行性和核心机制都验证完了,看到了真正的曙光,我才敢把这项技术带到一星继续推进。可以说,FastUMI 最初诞生于学术界,而我后来在工业界做的,就是把它从一个实验室原型,真正打磨成一个可以规模化、可量产的工业级产品。

AI科技评论:相较于UMI,传统的遥操作方案有哪些不足?

丁琰:我最初在 AI Lab 时,其实是以数据采集顾问的身份为一家行业独角兽提供支持。当时我们做的是一套完全传统、依赖遥操作的数据采集体系。彼时 UMI 还没有形成如今这样明确的技术流派,行业更多是觉得"好像有点意思",但几乎没有人愿意真正投入。那时的市场格局非常明显:至少九成的人都在做遥操作。然而,遥操作从一开始就存在非常突出的结构性问题。

第一,遥操作的数采效率比较低。一天能采集 100 条数据就已经算是非常优秀的效率了。我在做顾问期间发现,采集员常常会产出各种奇怪的轨迹,数据分布不可控,数据质量更是参差不齐。整个过程对人依赖极高,几乎无法实现一致性和规模化。

第二,遥操作的成本很高。由于必须依赖机器人本体进行采集,而一台本体的价格往往在 40 万元以上。如果你要采购五六十台来支撑规模化数据采集,前期投入就是两三千万元。在业务还没看到产出之前,这种成本对于任何公司都是沉重的压力。

第三,遥操作的数据质量也有问题。操作员戴着 VR 去操纵机械臂,缺乏真实的力觉反馈,中间存在大量动作不连续、体感不自然的 gap。这造成的数据往往是抖动的、不稳定的、缺乏一致性的。比如一个简单的抓取动作,如果不是熟练工,可能要重复多次才能完成,生成的轨迹非常噪声化,而这种数据对于模型训练来说是非常糟糕的。

第四,遥操作有数据孤岛的问题。遥操作采集的数据通常高度依赖特定品牌、特定形态、特定参数的机器人本体,因此数据只能在本公司、自家机器人体系内使用。一旦换了不同的机器人、控制器或执行器,这些数据的可迁移性就非常差,训练效果往往会大幅下降。换句话说,遥操作天然会形成数据孤岛,而无法构建行业级的通用数据资产。

AI科技评论:那纯视频呢?

丁琰:纯视频方案上,学术界和工业界其实存在一个非常明显的思维差异。在学术圈,只要一个方向足够 novel、有趣、能写论文,它就可以被视为一项很优秀的工作——至于能不能真正落地,并不是最核心的评价指标。但工业界完全不同。工业界追求的是那种简单粗暴、可靠可扩展的方案。我经常半开玩笑地说,我们要做的是"像 AK47 一样"的技术:简单、便宜、好用、有效。而从目前来看,纯视频方案距离这种工业级标准还有明显差距。纯视频当然能学到一些东西,但机器人面对的是真实的物理世界,而物理世界有大量必须被感知的信号:触觉、力控、摩擦、接触反馈,甚至声音。纯视频无法直接获取这些关键的物理信息,而这些恰恰是机器人学习和决策中非常重要的一环。因此,纯视频的数据价值不能否认,但它如何更好地在具身智能中被利用、以及能否成为主要的数据形态,还需要进一步探索。

AI科技评论:所以你选择了UMI。

丁琰:对,UMI 的核心优势就在于它能够直接从物理世界采集数据,而且完全不依赖机器人本体。我们只需要把 UMI 设备戴在手腕上,用一个夹爪去模拟机器人的操作过程。画面中呈现的只有夹爪本身——这意味着,只要未来机器人的夹爪形态与它一致,这份数据就可以无缝迁移、直接使用,是真正的"通用型物理数据"。同时,UMI 采到的是非常精准的物理世界数据,包括动作轨迹、接触模式、力的变化等。在这种方式下,人的体感与机器动作之间的 gap 非常小,大概只有 10%–20%,采集过程流畅自然,"看到就能抓、抓了就能做"。而相比之下,遥操作的体感 gap 往往高达 80%–90%。操作员戴着 VR 远程操控机械臂,动作延迟大、反馈不连续、缺乏真实触感,这些都会导致轨迹抖动、动作不自然,数据质量也因此大幅下降。

AI科技评论:那种手套方案怎么样?

丁琰:他们更多采的是五指数据,而 FastUMI 用的是二指数据,这本质上是两个完全不同的技术赛道。手套类设备也可以算是 UMI 的一种扩展形式,但目前五指路线整体还不够成熟。二指 UMI 的核心能力在于获取空间中的高精度轨迹,并准确记录夹爪的开合信息。由于二指夹爪的机械结构稳定、自由度少,因此可以直接、精准地推算出每个夹爪末端在空间中的位置,数据质量非常稳定。而五指方案的目标是获取每一个关节在空间中的位置,自由度暴涨、解算难度成倍提升。人手有 22 个关节,要让每个关节都保持毫米级误差几乎不现实。即使使用手套传感器,单关节误差往往仍然在厘米级,这会直接影响 replay(动作复现)效果。

AI科技评论:什么是好数据?

丁琰:本质上必须能 replay 成功 才算。当机器人按照数据执行动作时,如果不能精准还原人类的轨迹,那这份数据是无法用于训练的。因此,五指方案虽然也是一种 UMI 思路,但如果没有激光动捕等高成本环境辅助,其数据精度很难满足工业级需求。而二指 UMI 的优势就在于结构简单、可控性强、误差小、可 replay,真正符合可落地、可规模化的要求。

AI科技评论:目前在学术界其实也有一些UMI的方案,这些方案有哪些不足之处?

丁琰:我们应该算是全球第二家系统性开展 UMI 工作的团队,我对首家开展UMI 团队的工作非常尊敬,他们算是为 UMI 打开了整个技术方向的先河。那套系统整体对操作技能要求非常高,也更偏科研属性。

第一,他们的采集设备本身非常复杂。以轨迹读取为例,我们现在的 FastUMI 轨迹是直接从设备中读取的,插上电脑 1~2 分钟就能自动生成结果。而他们要读取轨迹,首先要对 GoPro 做标定,这一步至少需要 20 分钟;如果不是特别熟练的操作员,整个流程甚至可能需要一小时以上。

第二,他们的轨迹生成链路也非常长。采集时需要按照特定速度录制视频,录完后要取出 SD 卡,用读卡器插电脑,再通过 GoPro 的专用软件导出原始数据,然后再跑一套比较复杂的代码。光是环境配置和依赖安装就可能需要二三十分钟,最终才算能输出轨迹。

但这个轨迹还不一定成功,因为他们使用的是单目相机,而单目视觉里程计本身就极其容易失败。我们第一次尝试他们的方案时,大概 50%~60% 的轨迹都无法正确生成。后来才发现必须严格控制采集速度,而且场景里必须非常丰富的视觉特征点,否则视觉定位就会崩。

AI科技评论:FastUMI做了哪些改进?

丁琰:在硬件层面,他们的 UMI 系统只能运行在特定的几套设备上,例如 Franka 或 UR5e,夹爪必须使用 WSG-50,换成其他机器人或末端执行器基本就无法开箱即用。而这些设备动辄二三十万元,对大多数团队来说成本极高。为了让 UMI 能真正做到通用普适,我们投入了大量工作去做解耦,让 任何机器人、任何夹爪 都可以使用 FastUMI 这一体系,这是我们非常重要的技术突破。

在软件层面,我们用成熟稳定的 TR65 完全替代了原本复杂且易失败的轨迹计算方案。现在只需要 1~2 分钟就能稳定算出高质量轨迹,大幅提升了数据处理效率。

在算法层面,对方的体系主要只有一个 DP 算法。我们则针对 UMI 数据的特点开发和适配了四五种不同的算法,并在数据预处理、轨迹对齐、开合建模、触觉/力控特征提取等方面做了大量优化,使整个 UMI 算法链路更加完整、鲁棒。

综上,我们从硬件、软件到算法三个维度构建了一个扎实、完整并且可规模化的 UMI 体系。之后我们还自主采集了大约1万小时的UMI数据 ,积累了大量一线采集经验,为体系的稳定性和可重复性进一步打下基础。

整个具身智能圈子2/3的人,都在用FastUMI Pro

AI科技评论:你们的新产品FastUMI Pro据说成本只有传统方案的 1/5,可以具体透露一下它这个每条数据的成本是多少吗?

丁琰:数据的成本包括前期的高额研发投入,场地、采集人工电费以及设备折旧等等,我们新产品 FastUMI Pro 的成本能仅有传统方案的 1/5。我们现在的数据定价本质上是以"通用型数据"的模式定价。所谓通用型数据,就是一份数据可以重复售卖,并能够在不同机器人、不同算法体系中复用。因此,如果同一条数据能多次卖出,效益就会比较理想。

AI科技评论:FastUMI Pro很轻,但轻巧就意味着精简,有些功能会舍弃,那么在结构设计上如何平衡重量和功能?

丁琰:首先,如果希望采集员一天能够稳定采 500~1000 条数据,设备的重量必须控制在合理范围内,否则长时间操作会非常疲劳。因此我们把重量上限定在 600g。但这项工作当时是在一星的大工业场景下推进的,涉及的物品都很重,比如汽车零部件,部分甚至达到 1.5kg 左右。所以我们设定了一个硬性指标:设备必须能承载 2kg 的物体,而且同时保持足够轻巧。

这在当时是非常有挑战的,因为学术界还没有哪个研究型设备能做到 既支持 2kg 负载,又具备工业级耐用性。早期在 AI Lab,我们使用的还是 3D 打印结构件,非常容易损坏。那段时间最痛苦的就是——基本每天都在换零件。也正因如此,到了一星之后我们下定决心重新设计一款真正工业级的 UMI 设备,于是就有了 FastUMI Pro。

在硬件结构上,我们做了大量工程化优化,同时邀请专业人士对整体结构进行了系统的受力分析,明确哪些部位是主要受力点、最容易损坏。所有高应力区域,我们都采用了 强度更高的特殊材料 进行加固;而在螺丝孔、开合机构等容易变形的位置,我们也全面更换为更高规格的材料与结构。

至于非关键受力区域,我们的目标就是——能轻则轻。为此,我们尝试了二三十种不同厚度的结构版本,每一个版本都实际打印出来测试。在最终定型中,我们把部分结构的厚度压到 1.5 mm,而最薄的区域甚至做到 0.5 mm——因为这些区域几乎不受力。可以说,我们是把每一个细节都打磨到了极致,才达成了"轻量化与高强度同时兼顾"的目标。

AI科技评论:同时它的定位精度又很高,这是如何实现的?

丁琰:这一切的实现,其实归功于我们在软硬件和算法上的全链路投入。当时我们下了一个非常重要的决心:在产品成型之前不计成本地打磨品质,因为只要规模化之后,成本最终都可以摊薄。

因此,在最初的设计阶段,我们就选择了最好的传感器、组建了最强的算法团队。在跑完整个 pipeline 后,我们发现定位精度会直接影响算法效果,尤其是轨迹拟合、动作复现和多模态信号解算,因此我们决定必须把定位精度做到极致,并逐个解决可能出现的 corner case。

为此,我们不仅搭建了专门的算法团队长期攻坚,还投入了数百万元持续打磨这个产品。在硬件、软件、算法三端不断迭代的过程中,FastUMI Pro 才最终具备了今天的工业级稳定性和精度。

AI科技评论:从结果来看,这个投入是完全值得的。

丁琰:对,我加入鹿明还不到一个月,FastUMI Pro 就已经销售给了几十家企业。整个具身智能圈里大约有三分之二的团队都在咨询、测试或直接使用这款产品,国内国外都有。很多团队甚至是一口气采购多套设备回去评估。FastUMI Pro 基本已经成为行业内验证 UMI 能力的"标配装备"。

AI科技评论:您说过鱼眼镜头的FOV必须足够大,否则会出现物体超出视野的情况,那么FastUMI Pro采用了什么方案避免这一问题?

丁琰:就像我一开始强调的那样,UMI 从来不是一个简单的数采方案,而是一整套系统工程。数据的形态会直接影响算法,而数据与算法又会反过来决定硬件的结构设计。早期的 UMI 基本都把相机放在腕部,视野非常受限,背景信息严重缺失,有些物体甚至只能看到局部,这对于算法推理来说是极不友好的,因为模型必须依赖足够丰富、稳定的信息量才能可靠推断。然而,很多人做 UMI 只停留在"造出一个硬件"这个层面,没有真正完整走过从数据采集、算法训练再到回到硬件调整的全流程,这其实是非常不对的。真正的 UMI 必须经历一个反复迭代的闭环:先采数据,再训练算法,再根据算法结果不断修改硬件,只有这样整个体系才能成熟。在我们的实际训练中,我们发现像素必须足够大、白平衡必须足够稳定、抗抖性能必须足够强,否则模型就无法复现轨迹或推断正确动作。也正是根据算法反馈,我们最终选用了大鱼眼作为当前的最优解。

为了确定摄像头方案,我们几乎把所有能找到的鱼眼相机都买了一遍,前后大概二三十款。测试下来发现,很多鱼眼的实际视角根本达不到宣传的 180 度,要么画面灰暗、动态范围差,要么在快速运动时出现明显抖动,还有不少白平衡极不稳定。所谓白平衡,就是当你用手遮住摄像头再移开时,图像需要瞬间恢复正常颜色;如果要两三秒才能恢复,那么这一段数据轨迹就基本报废了。正因为我们完整经历了"硬件—数据—算法—再回到硬件"的闭环迭代,并用大量试错验证各种可能性,才最终确定了现在这个大鱼眼方案。它不是随便选出来的,而是从几十种失败选项里打磨出来的最优解。

深入做UMI后,我见识了采集员的管理之难

AI科技评论:FastUMI Pro为什么采用实时前处理?

丁琰:只有真正深入做 UMI,才会意识到实时前处理的重要性。我个人并不太倾向于 Generalist 或 Sunday Robotics 那类更偏后处理的方案。在实际采集中我们发现,后处理模式几乎是灾难性的:你可能录了八个小时的视频,最终为了得到真正可用的轨迹,不但要按任务把视频切成一段一段,还要逐条排查脏数据、删除错误片段、剔除低质量样本,整个流程极其繁琐,成本和人力消耗巨大。相比之下,实时前处理模式能够当场发现问题、当场修正,从源头保证数据质量。

选择前处理还有另一个很现实的原因——人性。数据采集员是非常难管理的。如果采用后处理方式,你把设备交给一个采集员,他干了一个星期,最后发现数据全部不能用,那么这一个星期的工钱到底付还是不付?而且问题并不总是硬件出错,更多时候是操作不规范造成的。我们在上海 AI Lab 建采集场的时候就遇到过大量类似情况:你规定某个任务必须 10 秒完成,但采集员可能 5 秒就做完了,动作不完整、节奏不符,导致整段数据完全没法用,而他们往往不会在意这些细节。因此,如果不在前端进行实时校验与约束,不仅数据质量无法保证,整个采集体系也难以长久维持。

AI科技评论:这些人是从哪找的?

丁琰:这些采集员大多是按小时计费的兼职人员,工作本身也没有太强的技术含量,他们往往无法真正保证采集结果的质量。即便你给出明确规范,他们也不一定会严格执行,这就进一步放大了后处理方案的不确定性和风险。

AI科技评论:不能去高校找一些大学生吗?大学生也挺便宜的吧。

丁琰:我们在 AI Lab 找的数据采集员其实都是大学生,但各种操作不规范的问题仍然很难避免,这让我真正见识到了管理的复杂性。那时候外包团队只有 11 个人,管理都已经很吃力了,如果建一个一百人的数据采集工厂,恐怕会直接崩溃。所以我们后来强调"不能做后处理",理由并不是技术,而是管理。后处理意味着采集员一整个星期都在积累潜在错误,等数据全都无效时已经无法挽回,也无法实时指导他们如何改正。相比之下,前处理能够实时给工人反馈,告诉他动作哪里不达标、哪些步骤需要重做。我们第一周的合格率只有 50%-60%,但经过一两周的实时反馈训练之后,整体合格率显著提升,到了最后几周甚至有人能做到 100% 合格。后处理完全做不到这一点,因为采集和修正之间是割裂的,错误无法在第一时间被发现并纠正,而这一点恰恰决定了数据采集体系能否真正跑通。

AI科技评论:所以前处理没有技术上的难点吗?

丁琰:当然,还有一个原因来自硬件本身。硬件在最初阶段可能出现的问题太多了,往往需要经过至少半年的迭代才能逐步稳定下来。只有当硬件足够可靠、采集员也完全熟练之后,才有可能转向后处理模式。也就是说,前处理和后处理并不是绝对对立的关系,更像是一种循序渐进、水到渠成的过程。当系统还不成熟时必须依赖前处理来保证质量;等整个链路稳定之后,后处理自然就能够接上。

AI科技评论:你曾说在研发过程中踩过了很多坑,可以讲一下有踩过哪些坑吗?

丁琰:以鱼眼镜头为例,我们最初基于控制成本的考虑,采用了一些低性能镜头凑合,但在实际训练和验证中发现,算法根本无法在这种低性能镜头上发挥作用,所以最终选用了将近大几百一颗的高品质鱼眼。类似地,也有人问过我们的 UMI 设备和 3D 打印出来的版本有何区别——乍一看外观可能差不多,但真正用起来完全不是一个层级。3D 打印件本身就不稳定,采集过程中各种结构性问题会频繁出现,导致效率极低,完全达不到工业化生产所需的可靠性,也根本无法作为一个可以拿去售卖的产品。真正的工业产品必须在强度、稳定性、耐久度、精度等方面都经得起验证,这些都是 3D 打印无法承担的。

AI科技评论:技术上还有其他瓶颈吗?

丁琰:技术上的瓶颈其实更多来自算法层面。我们团队在这一条线上不断迭代了一年四个月,几乎把能踩的坑都踩过一遍,深刻体会到 UMI 最难的地方根本不是硬件。如果用 100 分来衡量整体难度,硬件大概只占三四十分,而数据处理的难度却在六七十分以上。很多人以为 UMI 看起来很简单,好像随便谁都能做,但他们并不知道真正的挑战不在于把一个设备做出来,而在于如何把数据处理好,因为整个 pipeline 异常漫长、异常复杂。UMI 的"坏的一面"就在这里——它的数据极其难处理。如果用做菜来比喻,这就像遇到了一种食材,本身又便宜又美味,但处理过程极其繁琐,需要大量技巧和耐心,否则根本做不出好菜。UMI 的数据也是一样,只有把这道最难处理的食材处理好了,整个体系才能真正发挥价值。

AI科技评论:所以算法才是你们的技术壁垒?

丁琰:可以这么形容,我们的数据处理全链路,别人可能需要一年才能真正跑通,而我们已经积累了超过 1万小时的实战采集经验,这本身就是非常强的壁垒。很多人看到的只是 UMI 的硬件外观,但那只是冰山一角,真正的难点和价值都藏在水面之下的部分——也就是数据处理、算法链路、异常场景处理、质量控制体系、采集规范化、以及迭代出来的经验。这些看不见的部分才决定了整个系统的可靠性与可扩展性。硬件只是入口,而真正的深水区,全在背后那条漫长而复杂的数据 pipeline。

AI科技评论:FastUMI Pro在鹿明的产品生态中扮演什么样的角色?

丁琰:鹿明的人形机器人在运动能力方面本来就非常突出,但在操纵能力上的优势还不够明显,而 FastUMI 团队的加入让鹿明在 manipulation(操控能力)这一关键维度上获得了显著提升。

AI科技评论:会有资源不够分的问题吗?

丁琰:不会,CEO喻超是一个非常有战略定力的人,一旦认定方向,就会坚定地 All in 下去。未来鹿明的主要布局将围绕两条主线:一条是人形机器人本身,另一条就是 FastUMI 体系。在 UMI 方向上我们拥有非常明确的先发优势,而且团队对技术路线和产品节奏都非常有信心,相信能够持续保持行业领先。

AI科技评论:鹿明未来在技术研发上有哪些重点方向?

丁琰:我更多能谈的是软件侧的内容,尤其是数据。在具身智能领域,数据是高度多模态的,其复杂度远超自动驾驶。自动驾驶几乎不需要触觉、力控甚至声音数据,但这些恰恰是具身智能的基础维度。未来还会叠加更多模态,使理解与探索的难度进一步提升。现在整个行业在"具身智能该如何获取、理解和使用数据"这件事上的认知仍然非常不足,因此数据一定会是鹿明未来最核心的战略重点。

另一方面是我们自研的模型架构,其实也有大量讲究。并不是所有数据都能简单混在一起做训练,每一种数据都有其天然结构和语义特征,如何根据这些特征去构建属于自己的 VLA 架构,才是最关键的。我们会围绕数据特点对模型进行针对性的结构改进,充分释放不同模态的价值,这也是鹿明未来研发的另一条核心主线。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 上海 基础设施
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论