明亮公司 前天
智平方郭炎东:机器人竞争正在从模型能力走向系统能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者:SY

出品:明亮公司

在2026年的第八届北京智源大会具身智能论坛上,智平方创始人兼CEO郭彦东以《AI迈向物理世界:通用智能机器人开启第四代智能终端时代》为题,分享了智平方在具身智能、机器人本体以及开源生态方面的最新进展。

在郭彦东看来,通用智能机器人有望成为继PC、智能手机和智能汽车之后的第四代智能终端。"但机器人产业的发展不仅仅取决于模型能力的提升,更取决于机器人是否能够真正进入物理世界,在真实场景中持续工作、持续学习,并形成可复制的商业闭环。"

"世界模型与VLA并非替代关系,而是融合关系。"郭彦东解释称,世界模型最重要的价值并不在于生成,而在于帮助机器人理解和预测物理世界状态变化。对于机器人而言,对三维空间结构以及时间维度变化的理解能力,比单纯的视频生成能力更具价值。

在此基础上,郭彦东进一步介绍了智平方提出的NeuroVLA类脑架构。该架构借鉴人类神经系统,将机器人智能划分为皮层、小脑和脊髓三个层级。其中,皮层负责理解世界和任务规划,小脑负责动作协调与修正,脊髓负责快速执行与反射。

在硬件产业化方面,郭彦东表示,中国成熟的智能硬件供应链体系为机器人规模化制造提供了重要基础。目前,智平方已建成首条2000台级半自动化产线,并计划于今年下半年启动第二条产线建设,目标产能达到2万至3万台级别。

同时,智平方提出了"工业服务—公共服务—家庭服务"的发展路径。其中,工业服务是机器人商业化和能力积累的起点,公共服务是机器人进入开放环境的重要桥梁,而家庭服务则是长期目标。

以下为「明亮公司」基于现场速记、演示文稿整理的演讲内容:

通用智能机器人将成为第四代智能终端

智平方对于通用智能机器人的一个核心判断是通用智能机器人将成为继PC、智能手机、智能汽车之后的第四代智能终端。在我们看来,通用智能机器人不仅仅是一种设备,更是一种全新的智能终端形态。

以智能手机的发展历程为例。手机最初的功能非常简单,只能完成通话。但随着拍照、支付、多媒体、社交等功能不断加入,手机逐渐成为人们每天都离不开的设备。今天,手机已经从单一工具演变为连接人与数字世界的核心终端。

来源:北京智源大会、智平方(下同)

机器人也将经历类似的发展过程。未来的机器人不应该只服务于单一任务,而应该具备跨场景、跨任务工作的能力。它能够通过自然语言与人进行交互,理解环境、理解需求,并完成各种不同类型的工作。正因为如此,我们认为机器人有机会成为下一代革命性的智能终端。

但这里有一个前提。只有真正能够工作的机器人,才有资格成为下一代智能终端。如果机器人只能完成单一任务,或者只能在实验室环境中运行,它依然只是一个设备,而不是终端。那么,什么样的机器人才能真正像人一样工作?

在我们看来,需要具备几个核心能力:首先,需要拥有强大的大脑。机器人必须能够像人一样理解环境、理解语言、理解任务。

其次,需要具备灵巧操作能力。机器人需要能够像人一样完成双臂协同操作,在不同环境中使用不同工具、操作不同设备。

最后,需要具备自主移动能力。移动方式可以是多种多样的,但机器人必须能够在真实环境中自主完成移动和任务执行。

这些能力共同构成了机器人成为下一代智能终端的基础。

世界模型与VLA如何构建机器人大脑

如何构建一个真正能够理解世界、执行任务,并持续工作的机器人大脑?从第一性原理来看,机器人大脑需要完成两件事情:第一,理解世界。第二,控制行动。

对于机器人而言,它首先需要能够感知环境中的各种信息,对周围世界进行全方位、多维度的理解;同时还需要能够理解人的意图和指令。在人机交互中,语言始终是最自然、最高效的方式。因此,一个真正实用的机器人大脑不仅要能够看懂世界,还要能够听懂人类语言,并将理解结果转化为实际行动。

基于这样的思考,我们提出了"物理世界大模型"的概念。在这一体系中,机器人大脑主要包含三个核心组成部分:感知、推理、行为控制,三者之间可以采用不同的连接方式和耦合方式,但缺一不可。

世界模型和VLA究竟是什么关系?

如果观察人类大脑,会发现人本身就具备内建的世界模型。它帮助我们理解环境、预测未来,并对即将发生的变化做出判断。在我们看来,世界模型本质上是机器人理解和预测物理世界的重要能力,而VLA则承担着将认知转化为行动的职责。

事实上,行业对于世界模型的定义并没有形成统一共识。很多时候,人们在尚未明确概念边界的情况下,就开始讨论不同技术路线的优劣。因此,我们尝试对世界模型进行拆解。

在我们看来,世界模型至少包含三个层次:第一类是渲染器,例如视频生成模型、游戏引擎等,通过生成方式重建外部世界。第二类是模拟器,用于模拟和预测环境状态变化。第三类是规划器,帮助机器人进行任务规划和动作决策。在这三类能力中,我们认为对于机器人最重要的并不是生成,而是对物理世界的理解与预测能力。

从世界模型到NeuroVLA——构建下一代机器人大脑

当然,世界模型与VLA的融合仍然不是机器人大脑的终局。它解决的是看得懂和想得明白的问题,但机器人真正进入现实世界,还必须解决另一个同样重要的问题:动得快。机器人不仅需要认知能力,还需要实时响应能力。

基于这一思考,2025年智平方率先提出了快慢双系统架构。在这一架构中,我们将机器人的推理系统划分为快系统与慢系统,并实现深度耦合。通过这样的设计,我们显著提升了系统控制频率,同时在未见任务上的成功率也获得了明显提升。

因为无论是VLA、世界模型,还是快慢双系统,本质上仍然是在构建一个越来越复杂的"大脑"。如果观察人类神经系统,会发现一个有趣的现象。很多时候,当杯子即将从桌面掉落时,人会下意识地伸手去接。当手碰到热水时,人会下意识地缩回。这些动作往往发生在大脑完成复杂思考之前。在生物系统中,大脑、小脑与脊髓共同构成了完整的智能体系。这给了我们一个重要启发:机器人的智能架构,也应该越来越接近人类神经系统。

因此,我们提出了NeuroVLA类脑具身智能架构。在这一架构中,我们首次将机器人大脑划分为三个层次:

大脑皮层负责理解世界、任务规划与长期推理。这一层融合了世界模型能力,使机器人能够理解环境状态、预测未来变化,并制定行动策略。

小脑负责动作协调与运动控制。在执行过程中,小脑能够根据实时反馈不断修正动作轨迹,提升操作稳定性与成功率。

脊髓负责快速执行与本能反射。当机器人遭遇突发情况时,脊髓层无需等待复杂推理即可完成快速响应。

通过这样的设计,机器人首次拥有了类似人类神经系统的分层智能结构。我们认为:未来机器人大脑的发展方向,不是单纯做更大的模型,而是构建更接近生物智能的系统架构。

NeuroVLA带来了几项重要能力:首先是记忆能力。机器人即使暂时失去目标物体的视觉信息,仍然能够基于记忆继续完成任务;其次是自我修复能力。当操作过程中出现偏差或失败时,机器人能够主动调整策略,完成任务修正;第三是主动感知能力。机器人不再只是被动接收信息,而能够主动获取完成任务所需的信息。

人类神经系统仍然是具身智能最重要的灵感来源之一。我也希望行业能够在模型架构创新方面投入更多精力不要把具身智能简单地变成一个堆算力、堆数据、堆资金的赛道。因为真正的突破,往往来自新的架构,而不仅仅来自更大的规模。

机器人如何进入真实世界工业级硬件、商业闭环与持续学习

无论机器人大脑多么先进,如果缺少稳定可靠的硬件载体,就无法真正解决物理世界中的实际问题。对于机器人而言,大脑决定上限,硬件决定落地。

工业级和可靠性是机器人产业化的关键。从全球范围来看,中国在具身智能产业化方面拥有独特优势。但这种优势并不仅仅来自于算法或者模型。

做出一个机器人并不难,但是做出一个能够长期稳定工作、具备工业级可靠性的机器人,本身就是一个巨大的挑战。机器人最终要进入工厂、进入商业场景、进入真实环境。这些场景不会因为机器人偶尔出错而降低要求。

工业级可靠性将成为未来机器人竞争的重要门槛,而中国供应链是机器人产业化的最大优势之一。事实上,机器人产业的发展与过去智能手机、新能源汽车的发展有很多相似之处。机器人大量核心零部件与智能手机、新能源汽车、各类智能硬件,具有很高的复用度。

正因为如此,中国完整且成熟的智能硬件供应链体系,为机器人产业的发展提供了极好的土壤。基于这样的产业基础,智平方在去年建设完成了首条具备2000台以上产能的半自动化生产线。今年下半年,我们还将启动第二条产线建设,目标产能将达到2万至3万台级别。随着硬件能力不断成熟,我们希望让机器人具备更长时间的稳定运行能力。

与此同时,我们也在推动大模型更多地运行在端侧。这样做有两个重要价值:第一,用户数据更加安全;第二,响应速度更快。对于机器人而言,实时性与可靠性往往比绝对智能水平更加重要。

当机器人拥有了可靠硬件和先进大脑之后,新的问题出现了,机器人如何持续成长?智平方的答案非常明确:必须在真实环境中边工作、边学习,而不是为了采集数据而采集数据。

机器人需要建立一个可规模复制的商业闭环。只有真实场景中的任务、用户和反馈,才能持续产生高价值数据。这些数据再反过来推动模型迭代。最终形成能力提升与场景扩张的正向循环。

从公司创立第一天开始,我们就坚持一个判断:工业服务是具身智能最好的起点,尤其是在柔性制造领域。原因很简单,工业环境拥有明确任务、清晰目标、可衡量结果和稳定商业价值,非常适合作为机器人学习与成长的起点。

除了工业场景之外,我们认为公共服务场景同样具有重要价值。它能够帮助机器人从相对结构化环境逐步进入更加开放的环境。因此,我们将公共服务视为连接工业服务与家庭服务的重要桥梁。

家庭服务一直是机器人行业的重要愿景。但在现阶段,我们认为,家庭更适合作为数据采集场景,而不是商业化服务场景。原因在于家庭空间狭小、环境变化频繁、长尾任务极其丰富、标准化程度较低,对于当前阶段的机器人而言,家庭环境仍然过于复杂。

因此,我们更倾向于从工业服务到公共服务,再到家庭服务这样的发展路径。

开源生态与通用机器人的未来

过去几年,我们看到大模型行业的发展离不开开源生态的推动,具身智能也是如此。机器人产业的发展不应该只是少数公司之间的竞争,更需要整个行业共同参与和建设。因此,我们一直积极参与具身智能开源生态的发展。

目前,智平方正在参与智源研究院主导的RoboMIND开源数据集建设。这是当前具身智能领域具有广泛影响力的重要开源项目之一。在这一项目中,我们贡献了两款机器人平台的大规模真实数据。我们也希望通过这样的方式,推动行业数据共享,提升整个具身智能社区的数据开放程度。

除了参与行业开源项目之外,智平方也推出了自己的具身智能开发平台——AlphaBrain Platform。在这个平台上,我们开放了NeuroVLA等基础模型、多款生态合作模型、持续学习工具链、模型评测体系、下游任务适配能力。

我们希望开发者获得的不仅仅是一个模型,更重要的是获得一整套从训练、适配到部署的开发能力。过去很多开源项目只是开放模型权重,但对于具身智能而言,仅有模型是不够的,开发者还需要数据处理能力、训练能力、评测能力、场景适配能力。因此,我们希望进一步开放工具链,让开发者能够基于已有模型,快速完成面向自身场景的定制化开发。同时,我们也将常见Benchmark能力集成到平台之中,开发者可以方便地测试和验证模型表现。

在我们看来,未来具身智能的发展不应该建立在少数团队掌握复杂系统能力的基础上。我们更希望将原本属于少数团队的复杂系统能力,转化为整个行业都能够共享的公共能力。只有这样,行业才能真正形成规模化创新,这也是AlphaBrain平台最核心的价值所在。

最后,我想分享一个个人感受。我的第一份工作是在微软。那时微软一直坚持一个愿景:让每个家庭的书桌上都有一台个人电脑。多年以后,当我开始创业做通用智能机器人时,我也有一个类似的愿望:希望未来每一个家庭里,至少拥有一台通用智能机器人。就像今天的智能手机和智能汽车一样,它们不再是少数人的工具,而是成为人人可用的普及化智能终端。

| 发福利!添加下方明亮公司主编微信有惊喜!

估值叙事

从寒武纪走势看摩尔线程、沐曦股份袁记食品和老乡鸡阿里"千问"补课雷军的声量,小米的估值英矽智能AI制药泡泡玛特做家电理想L9 Livis的AI豪赌蔚来击穿估值折价|美光与AI瓶颈叙事腾讯市值叙事拐点|MiniMax 和智谱的估值锚

当季公司

霸王茶姬SKP联想泡泡玛特伯希和白犀牛智达DeepSeek阿里腾讯字节SharkNinja

#领先认知

新茶饮上市收官Paradigm谈早期投资字节AI医疗独角兽Abridge访谈龚虹嘉谈「杭州六小龙」开源人形机器人马克·安德森谈AI科技霸权九阳资本跷跷板阿里与拼多多AI殊途

#一手信息

ASML洛阳钼业锅圈安琪酵母蘑菇街活力银发访谈雷鸟创新熵简科技

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 第四代 物理 机器人产业
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论