RoboScience机器科学将物体3D点云轨迹定义为具身智能的核心"token"。
本文为IPO早知道原创
作者|MD
微信公众号|ipozaozhidao
IPO早知道消息,6月24日,通用具身智能企业RoboScience机器科学在深圳正式发布自研通用具身大模型Visics,并首次完整披露其底层技术架构VLOA(Vision-Language-Object-Action)模型。
Visics由具身世界模型和通用操作模型两大引擎组成,前者负责理解世界、预演未来,后者负责将物体轨迹转化为机器人可执行的接触点、接触力和关节控制指令。
RoboScience机器科学创始人兼CEO田野表示,Visics这一名称来自Vision与Physics的组合。其中,Vision并非传统意义上的计算机视觉,而是指机器人对未来任务过程的"想象"与"预演";Physics则对应机器人在真实物理世界中的执行能力。
RoboScience机器科学将Object Trajectory(物体3D点云轨迹)定义为具身智能的核心"token"。在其看来,机器人真正需要学习的并不是某个本体的动作本身,而是物体在任务执行过程中如何发生位置、姿态、形变等状态变化。通过以物体为中心的统一表征,Visics试图实现跨本体、跨物体、跨任务的泛化操作能力。
RoboScience机器科学联合创始人兼执行总裁汪涛则在发布会上表示,公司希望让机器人真正"丢掉遥控器",自主理解世界、自主改变世界,未来进入工厂、家庭等真实场景完成操作任务。
官方信息显示,RoboScience机器科学于2024年末注册成立,并于2025年3月正式运营。公司目标是自研通用具身大模型,并打造全球领先的自主操作机器人。RoboScience机器科学已连续两年入围全球机器人顶会ICRA最佳论文。
在资本层面,RoboScience机器科学已获得京东集团、商汤科技、达晨财智、招商局创投、零一创投、普华资本等多家CVC和财务机构的投资及产业支持,在北京、深圳、苏州、杭州设有研发和生产中心。
商业化落地方面,RoboScience机器科学已与多家零售、物流、康养服务企业及机器人本体、灵巧手公司开展试点合作,并计划于今年实现面向工业与商业场景的标准化机器人本体产品量产,据介绍,公司的本体产品将于今年8月WRC期间对外发布。
从第一性原理重新定义"具身智能token"
RoboScience机器科学联合创始人兼执行总裁汪涛在现场介绍了公司的整体情况和技术路线。
汪涛(来源:RoboScience机器科学,下同)
汪涛表示,RoboScience机器科学的目标,是自研通用具身大模型,打造全球领先的自主操作机器人。"我们希望让机器人能够真正丢掉遥控器,自主理解世界、自主改变世界,包括进到工厂打工、进到家庭干家务等。"
他提到,过去两年,具身智能赛道持续升温,很多公司试图解决机器人泛化问题,尤其是操作层面的泛化难题。但行业目前仍面临一系列共性问题,例如换个物体失效、换个场景需要重新训练、跨本体迁移困难、机器人换手之后能力无法复用等。
具身大模型的构建绕不开两个核心问题:数据和模型架构。二者不能割裂来看,因为模型架构决定了需要什么样的数据,也决定了企业要通过何种数据来源去快速反哺模型。
汪涛将具身智能与大语言模型进行类比。
在大语言模型中,行业已经形成较为明确的标准数据格式,即token;在自动驾驶领域,也有相对清晰的数据基础,即pixel。但在具身智能领域,行业尚未真正回答一个底层问题:具身智能的标准数据格式究竟是什么?
"我们先设定一个前提,具身的数据量需求不会低于大语言模型。"汪涛说,在这种情况下,大语言模型当前的数据规模是具身数据量的106-108倍,这意味着具身智能面临的是一个"天量鸿沟"。
自动驾驶能够积累大量数据,是因为有足够多的车辆每天在真实道路中行驶,并持续回流数据。但机器人不同,目前并没有那么多机器人在真实场景中持续干活,因此具身智能的数据来源本身就成为关键瓶颈。
汪涛认为,在回答数据从哪里来之前,行业首先要回答数据格式是什么。
"也就是说,具身智能自己的‘token’到底是什么?"
RoboScience机器科学给出的答案是Object Trajectory,即被操作物体在三维空间中的运动轨迹或状态变化,包括位置变化、姿态变化、形变变化等,并通过3D点云进行表征。
"我们的大模型Visics,它是一个VLOA的架构,中间的‘O’不是模态而是我们对于具身 token 的定义,就是 Object Trajectory 。"汪涛表示。
Object Trajectory:囊括任务、物体和机器人三类多样性
汪涛认为,具身智能面对的是三个维度的"多样性"。
首先是任务的多样性。机器人未来需要完成端茶、倒水、洗衣、做饭、叠衣服等多种任务。
其次是物体的多样性。从数字世界进入物理世界后,机器人每天会接触不同属性的物体,包括刚性体、铰链体以及各种柔性物体,而柔性物体又可以进一步分为一维、二维、三维等不同形态。
第三是机器人本体的多样性。当前市场上出现了越来越多不同形态的机器人和末端执行器,包括二指夹爪、三指手、四指手、五指灵巧手等。相比自动驾驶车辆在形态上的相对统一,机器人本体差异更大,交互方式也更加复杂。
因此,在RoboScience机器科学看来,具身智能需要一种统一的数据格式,能够同时囊括任务、物体和机器人三类多样性。
Object Trajectory正是其提出的解法。
汪涛表示,VLA本质上更偏向模仿学习,学的是机器人怎么动。但这种方式没有充分解决两个问题:第一,机器人自身运动构型和运动空间如何理解;第二,操作过程中蕴含的物理规律如何学习,例如重力、摩擦力、接触关系等。
RoboScience机器科学提出的VLOA架构,则是在Vision、Language和Action之间加入Object。也就是说,上层模型不直接输出动作,而是先输出被操作物体的三维动态轨迹,再由下层操作模型将这一轨迹转化为具体机器人可执行的动作。
在这一架构下,Object Trajectory向上能够表达任务目标,向下能够指导执行控制,从而成为连接认知和操作的中间接口。
Visics双引擎架构:从"学习动作"走向"理解物理世界"
田野在发布会上进一步介绍了Visics大模型的具体架构。Visics由"Vision"和"Physics"组合而来。田野说,其中,Vision不是通常所说的计算机视觉,而是指"想象"与"预演";Physics则指机器人在真实物理世界中的执行。
Visics由两大模块组成:具身世界模型负责Vision,即理解世界、预演未来,生成操作对象的3D动态轨迹;通用操作模型负责Physics,即将物体轨迹转化为接触点、接触力和关节控制指令,驱动机器人在真实世界完成操作。
两者之间通过Object Trajectory连接。
田野表示,Object Trajectory之所以重要,是因为它向上能够精确表示任务内容,向下能够精确表示机器人要完成什么目的。"Object这个词本身除了‘物体’之外,也有‘目标’的意思,所以它精确描述了机器人本体跟物体要发生什么样的交互,以及要完成什么样的物体运动状态变化。"
田野将具身世界模型的核心能力总结为四点:
第一,满足物理约束。真实世界中的碰撞、接触、稳定性、重力等物理规律,都需要被三维动态世界模型准确预测出来。
第二,支持物理多解性建模。同一任务可能存在多种合理做法,例如将控制器放到椅子上,既可以直接丢过去,也可以慢慢拿过去。世界模型应当能够生成多种可能方案,并供下游执行选择。
第三,保证长时序和空间一致性。当前很多世界模型在长程预测中容易出现发散、抖动或幻觉,而三维动态世界模型能够在完整3D空间中表示世界,有助于提升时间与空间一致性。
第四,实现硬件解耦。当模型以物体轨迹为核心时,训练数据不再必须绑定真实机器人;反过来,训练完成后的世界模型也可以部署到不同机器人硬件上。
如果说具身世界模型负责"想象未来",通用操作模型则负责"执行未来"。
田野表示,通用操作模型对应VLOA架构中的"O-A"部分。当世界模型告诉操作模型物体应该如何运动之后,操作模型需要进一步告诉机器人如何与物体发生接触,从而完成物体状态转移。
RoboScience机器科学希望通用操作模型支持四个"任意"。
第一是任意模态,即支持视觉、力觉、触觉、接触等不同模态数据;第二是任意本体,即支持不同机器人、不同机械臂、不同夹爪和灵巧手;第三是任意任务,即支持叠衣服、打领带、系鞋带、端茶倒水、洗衣做饭等各种操作任务;第四是任意对象,即支持刚体、铰链体、柔性体等不同类型物体。
同时,通用操作模型还需要支持闭环操作,即推理速度足够快,能够在动态环境中实时完成操作任务。
田野表示,行业中一个普遍痛点是,很多方法仍然围绕具体机器人和具体任务训练碎片化技能库,容易形成单场景过拟合。而RoboScience机器科学的方法,是用物体运动轨迹作为统一表征,再推导机器人与物体之间的接触方向、接触位置和接触力,以统一方式完成机器人操作技能补全。
突破数据瓶颈:"仿真+视频"双数据飞轮,以算力换时间
除模型架构外,数据是被RoboScience机器科学反复强调的关键词。
目前,具身智能的数据来源主要包括三类:真机数据、互联网视频数据和仿真数据。
汪涛表示,如果目标是训练具身基础模型,所需数据量可能达到千万小时甚至亿万小时级别。但当前行业头部公司的具身数据规模大多仍是几万小时、十几万小时,海外公司可能达到二三十万小时。这与基础模型所需的数据规模仍存在数量级差距。
汪涛认为,真机数据的问题在于成本高、产能低,并且与硬件绑定。无论是通过遥操作数据工厂,还是通过头戴式采集设备,本质上都需要大量人力参与,每条数据成本通常在几元级别,每人每天能够采集的数据量也有限,月产量大多处于万条级别。
相比之下,RoboScience机器科学搭建了全自动数据生产流程,主要与算力挂钩,而不依赖人力采集。
汪涛表示,公司以自研高精度仿真引擎RoboMirage为核心,结合全自动视频数据标注与清洗管线,构建了"仿真+视频"双数据飞轮。这一体系将单条数据的获取成本降至传统方案的1/20~1/200,同时以每周数十万小时的增速持续扩展,从根本上突破了数据规模与成本的双重瓶颈,为Visics大模型实现LLM级别的万亿级数据Scale-up奠定了基础。
具体来看,在预训练阶段,RoboScience机器科学不依赖真机数据,而是使用两类数据:一类是互联网视频数据,另一类是由自研仿真器生成的仿真数据。
据汪涛介绍,公司从今年年初开始,视频数据已超过百万小时,目前整体数据量达到数百万小时,并希望今年视频数据超过千万小时。与此同时,公司仿真数据已达到十亿至百亿级别,未来目标是进一步达到TB级规模。
互联网视频的优势在于规模大,且包含大量人类与物体交互的真实过程。但其问题也很明显:它是2D数据,缺乏显式物理信息。因此,RoboScience机器科学搭建了全自动视频数据清洗与标注系统,从视频中提取以物体为中心的高维多模态操作数据。
仿真数据的核心问题则是Sim-to-Real Gap。结合RoboScience机器科学选择自研物理仿真平台RoboMirage来看,汪涛表示,团队从2018年在斯坦福时期就开始研究物理仿真,重点不是上层渲染和场景搭建,而是底层求解器。对于机器人干活、具身交互来说,真正关键的是物理交互模型,包括接触、摩擦、惯性力、流体、柔性体大形变等。
RoboMirage希望实现统一架构、全空间覆盖。在现场展示中,该仿真器可以模拟扑克牌等超薄物体的快速连续接触,做到无穿模;也可以模拟流体、橡皮筋等一维弹性体的大形变,以及布料等柔性体操作。
汪涛认为,Sim-to-Real Gap的一个重要来源,是仿真工具不够强。如果仿真中就频繁出现穿模,那么数据质量很难支撑真实机器人执行。机器人在真实世界中可能会直接把布料扯碎,或者把瓶子捏碎。因此,RoboScience机器科学希望通过高精度仿真,一方面从源头降低Sim-to-Real Gap,另一方面为模型提供海量仿真数据。
汪涛将这一策略概括为"以算力换时间"。在他看来,如果完全依赖真机采集,行业可能需要5到10年、以极高成本积累足够数据;而通过仿真和视频,RoboScience机器科学希望立刻开始训练具身基础模型。
在回应IPO早知道关于算力这一问题时,汪涛也表示,AI模型所用的数据要与算力挂钩。从数据清洗、标注到模型训练,整个过程尽可能全自动,和人力无关。同时,RoboScience机器科学也希望用更低成本立刻进行具身大模型预训练。
"预训练阶段,我们在云端算力上的投入在行业内属于非常大的规模。"汪涛说。
商业化:软件大脑、端侧控制器和机器人本体
在商业化层面,RoboScience机器科学强调其商业模式会更加灵活。
在分享中汪涛表示,公司可以对外输出三项能力:第一,直接销售"大脑"。即以纯软件方式,通过License或云端方式输出Visics模型能力。第二,提供端侧控制器。公司可以将搭载具身大脑的控制器提供给机器人公司或灵巧手公司。目前,RoboScience机器科学已经适配市场上主流灵巧手公司。第三,提供自研机器人本体,直接面向终端客户。
汪涛透露,公司计划在8月WRC(世界机器人大会)期间发布自研机器人本体。
在汪涛看来,RoboScience机器科学之所以能够形成这种灵活商业模式,一个原因在于其从训练源头开始就与硬件解耦——与必须绑定自有机器人销售"大脑"的公司不同,RoboScience机器科学希望未来的Visics成为一个通用大脑,能够快速适配不同机器人和不同灵巧手,并进入更多真实场景。
而从进展节奏来看,公司的商业化可以分为三个阶段。
当前阶段,RoboScience机器科学重点打磨Visics大模型能力,聚焦物体维度的泛化突破,在商超、电商物流等高频、多品类场景完成PoC验证,用真实场景数据持续迭代大脑。
中短期,在物体维度泛化基础上,RoboScience机器科学逐步扩展至任务维度与机器人维度,从更多任务类型和跨本体部署两个方向延伸泛化边界。推动自研硬件本体量产落地,推出具身智能操作系统与开发平台,将应用场景拓展至酒店、工厂等更多B端领域。
长期,RoboScience机器科学将实现B端与C端场景的规模化落地。打造具身智能时代的"App Store",构建全球化机器人应用生态,同时完善硬件供应链,布局全球业务,让机器人真正服务于每一个家庭。
田野最后总结表示:"在我们所想象的未来图景里,机器人不是成为人类的替代者,而是成为人类文明的增幅器,Visics大模型就是我们在这一方向上迈出的关键一步。我们希望具身智能的技术能够加速文明和科技的发展,给每个人带来更美好的生活。这就是我们RoboScience机器科学的目标——构建通用的具身智能,赋能美好的人类生活。"
对话田野&汪涛:投资机构最关心模型的架构
在分享过后,田野和汪涛与包括IPO早知道在内的机构进行了交流,以下为现场问答环节内容精编:
Q:当前具身智能融资火热,但也存在泡沫争议,如何看待行业泡沫和未来潜力?
汪涛: 我觉得泡沫倒不是一个坏事,关键还是要看公司本身在追求什么样的价值。海内外头部大模型公司都已经达到很高的市值或估值,资本对不同公司的定价、融资规模和关注点也在分化。
具身智能最核心的是基模、大模型。未来如果要解决真实场景落地和泛化性问题,还是要回到行业最本质的问题,即能否在大模型层面实现真正突破。
现在资本会更加聚焦:一方面看不同公司的属性和定位,另一方面看公司是否抓住了行业最核心的问题,并具备解决这些问题的能力。我认为这个行业仍然非常值得投入,因为它是从数字世界大模型走向物理世界,具备更大的想象空间和落地空间。
Q:近期接触投资机构时,对方最关注哪些问题?
汪涛: 投资机构最关注的首先是模型架构。大家的观点在慢慢变化,过去可能更多关注模仿学习,但现在越来越多人意识到,靠人采集数据存在瓶颈。经过两三年的验证后,行业发现这种方式仍然存在很多局限,很多问题最终无法解决。
RoboScience机器科学从成立第一天开始做的就是世界模型,只不过当时没有使用这么fancy的名字。我们的架构是先预演世界,再让机器人理解物理规律,并驱动机器人操作。现在大家对技术路径有了更清晰的认知,包括架构和数据路线都在发生变化。
第二个关注点是真正的落地。投资机构会看公司是否真的用大模型驱动落地,而不是用接近传统自动化的方式去做。他们也会关注客户复购率,以及落地结果能否反向验证公司的能力。
Q:Object Trajectory采用3D点云作为中间表征,但点云可能存在遮挡、漂移、虚实对齐、物理规则约束不足等问题,公司如何解决?
田野:我们所说的物体点云,是一个数学表征,并不等同于深度相机拍出来的点云。深度相机点云只是一种获取方式,而Object Trajectory中的点云是更高层级、更通用的数据表达。
遮挡、噪点等问题,更多是传感器带来的感知数据缺陷。但我们的世界模型在生成物体运动轨迹时,并不是只生成传感器能够看到的部分,而是可以生成被遮挡部分在内的完整物体点云。这是我们用模型解决传感器缺陷的方式:直接告诉操作模型完整的物体运动轨迹,而不是局限于传感器看到的信号。
选择3D物体运动轨迹作为表征,还有一个重要原因是它能给模型带来举一反三能力。我们不是让机器人模仿人的动作,而是告诉它明确的目的——物体应该如何变化,再让机器人由此得到自己应如何运动。
同时,这一接口也把数据清晰拆开。世界模型可以用互联网视频训练,操作模型可以用仿真数据训练,通过这一层interface实现模型解耦、硬件解耦和数据来源解耦,从而获得充分的scaling能力。
Q:RoboScience机器科学的机器人本体将在哪些场景落地?ToB还是ToC?
田野:我们认为本体要和模型做深度结合,所选择的场景也需要与模型未来的发展路线深度耦合。我们希望做的是泛化模型,数据来源应当是多样的,因此不会选择非常狭窄场景下的非标自动化。
我们选择的场景一定要对泛化性有足够高的要求。泛化性包括机器人本体、物体和任务三个维度,我们首先要突破的是物体维度的泛化。因此,当前主要选择物流、零售等对物体泛化要求非常高的场景。
现阶段更重要的是把AI模型的基础能力打好。只有底层的视觉、语言和操作能力逐步成熟,未来才有机会进入家庭这样复杂度更高、对成本和稳定性要求更高的场景。所以我们现在进入的是B端,对泛化性要求较高的物流、零售等复杂场景。
Q:真机数据是否主要用于具体落地场景?预训练阶段是否主要依靠RoboMirage物理仿真引擎和视频数据?
田野:可以从预训练和后训练两个阶段来看。预训练要求数据具备多样性和海量规模,这两个特点很难仅从真机数据中获得。因此,我们必须依靠互联网视频数据和高精度物理引擎生成的仿真数据,获得接近语言模型预训练规模的数据。
这些数据是为了给模型提供基础能力,让模型能够达到进入真实现场的水平。真机数据更多用于具体场景的后训练,可以提供非常难的失败案例,即hard failure case。这类数据能够让模型做针对性补强,但不足以支撑预训练。
未来,当我们的本体进入具体场景后,会把真实场景里的失败数据回流,作为数据闭环用于后训练。但预训练仍主要依靠视频数据和仿真数据。
Q:RoboScience机器科学希望将Object Trajectory作为内部闭环格式,还是推动成为产业标准?
田野:这两件事是相辅相成的。推动一个标准数据格式或标准接口,首先要自己跑通,证明它在通用领域下能够让世界模型与操作模型紧密结合。这是我们的首要目标,也是我们用这一格式推动视频数据和仿真数据进入模型训练池的基础。
第二个目标也很重要,即用统一的数据格式告诉各种不同机器人,它们的目的是什么,再由我们的模型告诉机器人如何完成这些目的。
这也是我们正在做的事情:让通用、跨本体的具身模型赋能不同机器人。未来,我们希望具身智能能力能够带给不同规格、不同形态的机器人通用操作能力。因此,这两点都是我们提出这个"token"的目的。
Q:PPT里"算力即产能"应如何理解?公司未来是否会在算力方面有更多安排?端侧算力需求如何?
汪涛:这里有两点:一是算力即产能,二是以算力换时间。我们从第一性原理思考具身GPT时刻什么时候到来,以及应当以什么速度实现这一终极目标。
我们希望抛开人力,不靠人去采数据。现在已经进入AI 2.0时代,如果仍然依靠人工采集数据,经过过去两年验证,可能与预想存在很大偏差。这些数据如何使用、使用效率、与硬件绑定等问题都会限制训练。
我们的想法是,AI模型所用的数据要与算力挂钩。从数据清洗、标注到模型训练,整个过程尽可能全自动,和人力无关。这就是"算力即产能"。同时,我们希望以算力换时间,用更低成本立刻进行具身大模型预训练。预训练阶段,我们在云端算力上的投入在行业内属于非常大的规模。
Q:端侧算力方面?
田野:端侧算力对机器人非常重要。机器人需要在现实环境和物理世界中快速响应,也会进入家庭或高信息安全要求场景,因此端侧算力不能被舍弃。
我们的世界模型和操作模型两层架构在算力来源上也有优势。操作模型可以高速运行在端侧,提供快速响应和闭环执行;世界模型响应频率相对较低,因此可以采用端云协同方式。
端侧会有相对较小的世界模型处理简单任务,更复杂的任务交由云端进行长程、复杂推演。端侧算力是机器人的基本能力,同时也可以与云端计算结合,用于训练和推理。
Q:"一脑多体"过去被认为很难,公司为什么认为现在可以做?
田野: 跨本体确实很难。我们的联合创始人邵林在2020年左右就已有跨本体泛化操作的论文,可以说是这一领域的开创者之一。跨本体难点在于每个机器人结构不同,机器人数据也较难采集。我们的方法是在仿真中构建各种不同机器人,作为模型训练数据。模型中有专门的机器人encoder,就像视觉encoder、触觉encoder、语言encoder一样,用它理解机器人本体架构。
目前,我们能够在一定范围内做到zero-shot transfer。也就是说,给一个没见过的机器人,只需要提供URDF文件和说明书,模型可以理解说明书并执行灵巧操作。这说明跨本体能力是可以scaling的。当仿真数据里的机器人更多、物体更多、任务更多时,模型会获得更强的跨本体能力。
机器人本体本质上也是一种模态,不应该是AI无法解决的问题。同时,跨本体非常值得做,因为它可以带来更多数据来源和更多可部署场景,也是我们商业模式中非常重要的一环。
Q:公司同时做大模型、仿真引擎和机器人本体,长期看哪些环节坚持自研,哪些开放给生态伙伴?
田野:机器人是一个非常长的链条,从底层零部件到本体、模型、数据,都需要较大投入。现在很多东西我们自己做,是因为处在从0到1的阶段,需要完成技术突破。
例如仿真引擎要缩小Sim-to-Real Gap,就必须从底层物理引擎着手,这是我们重点投入的方向。但我们不会做非常底层的硬件研发,也会与生态伙伴合作推进不同场景部署。
机器人本体有很强的场景适应性,有些场景需要灵巧,有些场景需要力气大,公司不可能把每个场景下的硬件都自己做完。这也是为什么我们要做跨本体,适配不同机器人,和生态伙伴一起推进落地部署。
总体而言,本体、模型、数据等大方向都会持续投入,但投入方式不同,有些全自研,有些会与商业伙伴协作。
Q:通用具身大模型的商业模式是什么?哪些下游或场景可能更快产生收入?
田野: 我们有三种商业模式:纯软件、控制器和本体。
纯软件模式会以license方式销售,目前已经有一些收入,主要面向本体公司,以及已经有机器人场景的场景方或集成商。它可以让客户用我们的模型解决此前已有场景中无法解决的问题。控制器模式类似。例如客户已有工业机械臂或协作臂,接入我们的控制器和传感器后,就能实现此前无法完成的泛化抓取和分离任务。完整本体模式则是希望闭环商业和数据链条。我们的设计更适合对泛化性要求很高的场景,而不是机械臂就能完成的自动化场景。物流、商超、零售等场景,是我们认为更容易实现价值,并相对过往非标自动化形成优势的方向。
软件服务未来也可以采取MaaS形式,类似大模型公司销售token。每一次操作其实都可以理解为一个token,也可以采用年包等更灵活的形式。
Q:具身模型当前应优先迭代基座模型,还是快速落地真实场景?公司如何平衡?
田野:我们认为基座模型是很多场景落地的基础。例如快递、仓库、零售等场景,都对物体泛化性有很高要求,这先天要求基座模型经过充分预训练,能够完成多样物体操作。
这也是我们选择这些场景的原因:我们希望一开始就由场景牵引训练基座模型,让模型具备相对通用的泛化能力。
场景落地的主要作用是形成数据闭环,通过数据回流持续迭代模型。在模型能力范围内,针对某些维度与场景进行更深度匹配。这也是我们做机器人本体的原因,本体需要与场景进行更深度耦合,满足场景物理需求,再把数据回流到模型中。
因此,基座模型迭代和场景落地并不完全冲突。真正的差异在于选择什么场景。如果选择非常狭窄的场景,技术路线可能变成小数据、小模型的过拟合;如果选择泛化要求高的场景,就会倒逼公司持续迭代基模。
本文由公众号IPO早知道(ID:ipozaozhidao)原创撰写,如需转载请联系C叔↓↓↓


登录后才可以发布评论哦
打开小程序可以发布评论哦