" 机器人幼儿园 " 项目是他山科技与强化学习之父萨顿合作的首个落地成果。
本文为 IPO 早知道原创
作者|SY
微信公众号|ipozaozhidao
据 IPO 早知道消息,近日举行的首钢具身智能产业发展大会上,他山科技与图灵奖得主理查德 · 萨顿(Richard Sutton)共建的 " 机器人幼儿园 " 项目正式启动。
" 机器人幼儿园 " 是面向具身智能自主学习训练的研发平台,以萨顿强化学习理论为指导,通过构建以触觉感知为核心的物理交互环境,使机器人在真实场景中通过试错与反馈,实现自主学习与策略优化。
据了解," 机器人幼儿园 " 的命名来自萨顿本人的提议。当前具身智能的发展水平,如同心智处于 0-3 岁的幼儿,高度依赖人类预设指令与路径。
现有具身智能训练的主流路径,是让机器人通过模仿学习或遥操作,掌握特定的执行能力。但这种方式也面临知其然,不知其所以然的限制。
" 机器人幼儿园 " 试图为机器人创造一个能够安全试错、自由探索的物理环境。在幼儿园内部,部署工具、果蔬、生活用品等,多台机器人在其中自由穿梭、主动探索,碰撞与跌倒在所难免,而这个过程正是其能力进化的核心。
借助他山科技自主研发的触觉感知技术,机器人能够实时接收到物理交互的反馈,在持续的 " 奖赏 " 信号中,自己界定出安全边界与任务边界,逐步形成对自身行为的理解,从而摆脱对人类经验的模仿和依赖。
这一方法论基于萨顿的强化学习理论,萨顿也被誉为 " 强化学习之父 "。5 月 11 日,他山科技与萨顿创办的 Openmind Global Research 签订战略合作协议,机器人幼儿园便是这次合作的首个落地项目。
萨顿在近期的研究中表明,AI 的下一个转折阶段,在于从人类数据时代步入经验时代。智能体可以通过与环境的直接互动产生数据,生成超越人类预设的行为与认知能力。
触觉被视为连接机器人与目标事物并形成闭环的关键。相比视觉与听觉停留在输入层面,触觉提供的不仅是输入,还有反馈,二者形成双向闭环。
" 交互能力是深入挖掘触觉价值、释放触觉技术红利的关键因素。" 他山科技研发副总裁侯广东在现场表示。
他山科技 CEO 马扬在接受媒体采访时,谈及了机器人幼儿园的构想:
首先,在机器人幼儿园里可以放置各种异构本体,希望通过机器人幼儿园打通不同本体之间的学习;
其次,机器人幼儿园提供了更好的学习平台,让不同的本体将其学习到的经验,自发地传达给交互的其他机器人;
第三,标准和规则在实践中产生,希望通过幼儿园里的机器人交互,可以在实践中建立机器人应该有的一套标准。
官方信息显示,他山科技成立于 2017 年,是一家专注于 AI 触觉感知技术及应用解决方案的研发商。
在人形机器人领域,他山科技构筑 " 传感器 - 解决方案 - 训练平台 " 全栈矩阵,主要用于机器人指尖触觉传感器和电子皮肤等场景,应用于汽车、家电、消费电子等多个领域。
目前,他山科技已与因时机器人、强脑科技、灵巧智能、傲意、灵心巧手、奔驰、宝马、奥迪、比亚迪等众多企业建立合作。
2025 年 11 月,他山科技宣布完成 A3、A4 两轮融资,由中信金石投资、中信证券投资、广发信德等 13 家投资机构共同投资。
启动仪式期间,他山科技 CEO 马扬与 IPO 早知道等机构进行访谈,他谈及了目前行业的数据采集现状、痛点以及解决之道。以下为访谈内容精编:
他山科技 CEO 马扬(图片来源:他山科技)
相比于视觉与听觉
只有触觉能与真实世界形成交互
Q:过去几年关于人形机器人的话题,大家更多讨论的是大语言模型和运动控制,为什么他山将触觉视为机器人商业化落地的关键?
A:事实上,LLM 或者说整个基座的人工智能模型,其实与具身之间是连接的关系,而并非具身的基础。
我们所说的具身是指更多基于自身能力,从感知到计算再到控制的闭环。触觉虽然不是具身的全部,但它是具身不可或缺的一环。视觉和听觉这两种感知无法改变世界,无论是人还是机器人,与真实世界的交互必须通过触觉完成。现实中,人类实践更多是通过双手来完成的,这是一个持续性的过程。在这个过程中,我们不仅是接触物体,而是触觉本身在与目标的交互中引起目标的变化的过程,最终形成经验积累。这是我们认为触觉在具身领域存在的必要性。
Q:在真实场景中,如果缺少触觉,具身会存在哪些问题?
A:例如,大家可能有时会在厨房里戴隔热手套防烫,但此种场景下工作的准确性、稳定性以及速度都会受到较大影响。当我们在拿面前的杯子时,随着杯子的重心不断发生变化,我们手指的抓取姿态和力度是在不断调整的。触觉前端与大脑类似,也分布着大量的突触与神经元,许多的微调是通过手端来完成的,行业中将其称为触觉传感器,习惯后我们就沿用了这一称谓。
事实上,传感仅是第一步。从前端感知、边缘端计算到最终的控制执行,其稳定性、完成度与速度缺一不可。以剥小龙虾为例,一年四季虾的大小和软硬度是不同的,当我们的手接触虾的时候,感受到虾的这些特性,然后用对应的力度和旋转将头剥下来。具身也一样,在抓取和旋转时,要用到不同的姿态和力度。
Q:如何平衡触觉传感器的灵敏性、耐用性和经济性?
A:对于我们而言,第一性能是耐用性,前几年行业中特别强调灵敏性指标,但是到去年开始,我们发现大家开始更关注鲁棒性和耐久性。这其中涉及两点:第一,当机器人真正干活时,不是用实验实测的 0.0001 牛的力就可以,它就像人的手一样,我们总认为手的感知非常灵敏,实际上手指是人最粗糙的一部分皮肤。无论身体还是手臂都比手指敏感,反而手指由于经常工作可能起了许多老茧。每个人的厚度可能不同,是因为要干的活不同。之所以有老茧的存在,就是希望在不同的环境下保持良好的鲁棒性。对应到触觉传感器的前端的手指也是如此,无论是室内还是室外,即使使用了 10 次或者 50 万次,它仍能保持良好状态或者性能。这是我们在行业发展中后期形成的共识。
在鲁棒性的基础上,成本一定是随着量级的迭代降低。同时,基础的灵敏度够用是很重要的。如果超过够用也就是无用,如果在够用线以下也不行,一定是要满足够用的标准。
Q:触控芯片、触觉传感器和算法模型,这其中最核心的技术壁垒是什么?
A:如果将模型定义为软端,将芯片定义为硬端,对我们而言同等重要。我们最早考虑这件事情时发现,行业里没有合适的底层硬件,大家将其定义为传感器,即模数转换的部分。当我们把它定义成一个真正的前端的智能模块的时候,我们就把它做成了用于触觉的人工智能的芯片,很快我们会有第二颗芯片推出。由此,芯片就是一个技术端的壁垒。
我们会发现,虽然人们的大脑差别不大的情况下,每个人由于后天的训练与学习方法不同,导致大家所做的事情不同,能力也有差别。因此,如果将芯片比作人的大脑或基础的小脑,我们需要对其进行训练并形成模型。这也是非常重要的部分。
Ego+UMI 的形态,是现阶段
解决仿真和真实矛盾的中间态方法
Q:近一年来,行业在数据采集方式方面发生的变化是什么?他山主要选择哪种方式?基于什么原因?
A:第一个原因是数据的获取途径。传统意义上,主要有几种不同的方式。与真实脱离最远的是我们在仿真端进行工作,早期的确可以通过仿真获得大量数据,不过仿真最终是用来干活的,只基于仿真数据可能完成这个任务,但这与做好仍然有较远距离。
受制于机器人真机目前数量有限,且很大程度上仅限于提供类似于娱乐功能。如果现在用纯本体数据进行采集,数据量会非常少。而且当前基于本体的数据采集,更多依赖于遥操作或模仿型操作。
在此基础上,今年我们用 Ego+UMI 的形态,是一个比较好的中间态的方法,它既获得了大量真实世界的数据,又能够与本体之间产生可迁移的可能,同时获取的速度较快,甚至可以在日常工作中积累数据。我们看到一些研究机构和海外机器人公司在纯 Ego 或者 Ego+UMI 形态下,通过小的数据样本就取得了比较好的结果。
他山很看重这一形态,我们很快会有关于 Ego+UMI 形态的训练方案发布。因为绝大多数机器人公司使用的是我们的手指,所以也需要尽可能在手端有同源提供触觉信息的方式。一方面,我们会与制作五指,包括两指的 UMI 的手套厂商与夹爪厂商进行合作,与上下游一起探讨。
整个行业都非常清楚,这其实是一种中间形态。接下来我们还需要更多的真机数据采集。如同车辆的启动需要逐步换挡才能达到高档位水平,具身智能也是逐步提升。我们现在做的机器人幼儿园就会是更偏实验室一些,我们会做的更靠前一些的事情。我们希望这中间能有一个很平滑的过渡,能够让具身智能在一个高速的路径上做迭代。
Q:目前,各家都希望通过手套、手环等各类方式试图挖掘数据,但从实际效果层面看,抓不准、抓不全等问题并没有得到根本解决,是由什么原因造成的?
A:首先,存在时间的滞后性。大家可能注意到,去年我们对发布 demo 非常感兴趣,今年可能大家已经对此不感兴趣。我们最近发布的一个机器人剥小龙虾的视频火爆,事实上对具身而言这是比较初步的事情。因此,大家可能更关注的是机器人是否能够到真实的场景中干活。但执行具体任务是一个相对复杂的事情,比较偏长线,实际上我们要一步一步地落地,当事情在进行的过程中时,外部可能就会感受到时间上的滞后性。
其次,我们当前的训练模态,既会用仿真数据、无本体数据和本体数据相结合使用。但是,目前的数据量还是相对较小,对于支持目前的训练方式,我们仍在需要不断探索哪些数据更有效,什么样的训练方法是好的。
Q:许多客户意识到数据的重要性和紧迫性,但似乎并不知晓哪些数据重要。据你了解,客户对于数据的理解大概是什么状态?
A:从客户角度看,大概有两种形态。一种是以目标为导向,客户需要使用具体方案解决工厂或者商业端所面临的问题。目前这个问题对客户而言人力成本很高,就想先解决这一具体问题,从输入到输出都是闭环状态,客户的目标并非需要数据,而是能否做好。我们基于最终目标逐步解构如何在早期处理数据,核心目标是确保任务完成。
另一种情况是,目前存在一种泛泛的需求。我们并不知道最终目标是需要一个更加智能的具身智能机器人,我们希望使其进行无特定目标、路径尚不明确的探索性学习,就像人刚出生时对世界的不断探索中成长。作为碳基生物,对于硅基生物需要什么样的数据,我们也是在不断的尝试中。
从整个行业来看,可能从整体的方向上做一些基础的具身智能以及基础的模型,从垂类层面做一些具体的事情,这两部分相结合并且一起推进。
Q:厂商的终极目标是实现智能,但距离这个结果的中间过程似乎难以实现泛化,目前的数据采集更多的体现在采,并没有明显的技术与商业化方面的突出表现,这其中的原因是什么?
A:智能与数据呈现相互迭代的增长关系。就像人的成长,随着大脑的开发智商逐渐提高,学习的内容也会越来越多,而且每个阶段的学习内容有所不同。
因此,业界对数据的关注是阶段性演进的。现阶段或许侧重于算法的智能表现,下一阶段则可能转向底层芯片架构与模型结构的优化。在数据与算法的交替迭代中,整个技术生态最终呈现出螺旋式上升的态势。
Q:对数据的衡量是否存在一个量化指标?
A:很难。它不像做自动化设备具有标准性,所谓有教无类,一个班上那么多学生,虽然同一个老师教但学习结果是不可预知的。具身智能也一样,同样的模型的结果也不可预知。
对人来说,到一定程度可能就学不下去了,我们会尝试用不同的学习方法。对应到数据也是一样,用不同的方法训练,看哪种方法更有效。其实有时候,具身智能的研发模式与教育或医疗行业类似,高度依赖个体差异与方法尝试。
仿真端与真实端的数据都具有稀缺性
尽可能获得多维度数据
Q:仿真数据的偏差大,真实数据又特别稀少的情况下,如何平衡数据质量与数量之间的优先级?
A:目前来讲,每一部分都有自己要做的事情。在仿真端比较难的是如何更好地模拟物理世界,因为相关的模态和变量在仿真模型中并没有被引入,这也造成当前的仿真模型或数据不太完善。
当然,真实端的数据肯定是越多越好,但目前确实受制于现有本体数量。如果机器人能够在真实端进行自主强化学习或者更多地进行自发探索,即自己设定目标再继续学习,效果会更好。
从未来角度来看,我们希望这两端都能够做得更好。无论技术发展到哪一步,行业都应尽可能获取更多数据维度,可能有些厂家更倾向于制作底层仿真端的底座,而有些则更倾向于制作真实端的东西,这两者同样重要也都很缺乏。
Q:目前,他山获取单位时间的真实数据的成本是多少?
A:如果以数采员来做的话,每小时的数据采集数量跟任务复杂度、采集方式等相关,数量差别较大,后续可能还需要对数据进行清洗和标注,对不太好的部分裁掉,整个的成本可以大概估算出来。
如果是仿真数据,成本就非常低。只要有一个算力的服务器,把仿真模型搭好就可以跑数据。
Q:行业中从仿真数据到真实数据的迁移成功率是多少?
A:仿真是在非真实的环境下在仿真端搭建,非常适合具身冷启动。比如,先模仿一个动作,在仿真端跑数据,跑出来的数据使得我们的模型在真实端应用时至少超过 50%,大概 50%-80% 成功率。其实,你可以理解原来的视觉领域早期大多依赖于仿真端。
Q:目前,工业机器人与消费机器人在数据上的要求有什么区别?
A:从应用的方向看,主要是做单一任务还是泛化任务。
工业端的目标比较明确,从最早的单一任务,到自动化协作,现在自动化的协作还未解决,具身推出以后可能会有一些柔性生产和小范围的泛化能力。因此,工业端的目标明确也就意味着数据明确,我们将原来人或机器进行操作的数据迁移至具身的数据即可。
消费端的话,从商业的角度讲,更多的应用案例还是需要其具备足够的泛化性,越泛化其实就是一个越远的目标,古语言条条大路通罗马,就好比我们造一辆车的时候,用电还是用油大家其实都在尝试,最终我们要用结果来反推什么样是更好的方案。
本文由公众号 IPO 早知道(ID:ipozaozhidao)原创撰写,如需转载请联系 C 叔↓↓↓


登录后才可以发布评论哦
打开小程序可以发布评论哦