艾瑞网 5小时前
类脑VLA加持,智平方吸金50亿元,估值冲上200亿元
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_caijing1.html

 

导语:据《深圳特区报》报道,具身智能企业智平方完成一系列新融资,融资总额近 50 亿元人民币,估值超 200 亿元。

据《深圳特区报》报道,具身智能企业智平方完成一系列新融资,融资总额近 50 亿元人民币,估值超 200 亿元,成为粤港澳大湾区首个估值正式突破 200 亿元的具身智能企业。

「甲子光年」发现,本轮融资中,更值得留意的是资方的构成——中国文化产业体系基金、国家中小企业基金、广东省人工智能基金、南山战新投、粤港澳大湾区系列基金等区域重点平台持续加码;中国生物制药(正大集团)、康龙化成、茅台集团、招商局资本、五洲新春、万丰控股、中贝通信等多家产业龙头集体押注;多家保险公司以及中金资本、中信建投、洪泰资本等头部券商系资本及市场化投资机构深度参与;更有达晨财智、敦鸿资产、道得投资、锡创投、梁创投等老股东持续超额追加投资。

目前,智平方已集结国家队、大湾区、地方、险资、券商、千亿产业方、头部财投集体入局。这样一条完整的出资链条,在一个尚未形成商业化闭环的赛道里并不常见。

市场正在用真金白银押注的,是智平方开辟的一条少有人走的技术路线——类脑 VLA。

今年智平方推出并开源了自研原创的类脑 VLA 模型 NeuroVLA,该具身智能系统同时具备主动感知、故障自恢复与时序记忆三大类生物运动能力的具身智能系统,被业内视为下一代机器人大脑的重要演进方向。

6 月 23 日至 25 日,在夏季达沃斯论坛上,智平方创始人兼 CEO 郭彦东博士向世界重点介绍了类脑具身智能系统 NeuroVLA,并分享了中国机器人产业的发展路径与实践思考。

智平方创始人兼 CEO 郭彦东

郭彦东抛出了一个对行业的根本判断。

" 如果所有人都沿着同样的大模型路线继续往前走,我们需要 10 倍的数据、10 倍的电力。但现实世界并没有无限的数据和能源。" 他认为,下一代机器人大脑不应只是算力和数据的竞赛,更需要探索更高效、更可持续的发展路径。而类脑智能、小样本学习以及低功耗计算,将成为下一代机器人大脑的重要发展方向。

1. 不要困于路线之争

2026 年春天,具身智能行业路线之争愈演愈烈,世界模型和 VLA 成为一道分界线,划出两派不同信仰的玩家,新的终局判断层出不穷。

这些争论本质是在争夺一种名义上的胜利。但机器人产业的真实痛点从未改变,就是要提高机器人在不同场景下的动作执行效率、稳定性以及泛化性。

当前的机器人能够近乎完美地执行预设动作,例如跳舞、翻跟斗等,但实时交互的动作都很慢。机器人虽然能听懂实时交互的指令,也能完成任务,但遇到难度较高的任务,机器人要么手抖,要么大脑宕机。" 这本质是由于大模型和机器人全身控制结合不佳导致的。" 郭彦东总结道。

因此,郭彦东试图跳出争议本身,从更务实的维度审视 VLA 和世界模型的价值。他认为,世界模型不是 VLA 的竞争路线,而是 VLA 体系中的核心组成部分。

郭彦东曾对「甲子光年」表示,VLA 本身一个具有终局感且很有生命力的模型架构。" 任何能够在真实世界中执行任务的智能系统,都必须具备三项核心能力,即对世界的感知、对逻辑的推理以及对行为的控制。视觉、语言、行动三要素是永远存在的,变化的只是它们的组织方式。" 他说。

在当前的语境下,VLA 里面的 V(Vision,视觉)不应只代表视觉,它应当代表着模型对物理世界的某种感知方式。而近半年热议的世界模型,可以看作 VLA 架构的一个最新变种。

在今年的智源大会上,郭彦东还做了更详细的拆解。他把世界模型定义为对物理环境进行稠密、包含时间维度的 4D 预测,它是一个非常好的空间基础模型,但本身并不直接输出动作,也不直接处理视觉输入。

因此,如果将世界模型和 VLA 结合,便能形成很好的能力互补。VLA 中融入世界模型后,便能内生地形成对物理规律的理解,不再被动地映射 " 感知→动作 " 的对应关系,能够预测动作的后果,在行动之前进行模拟推演。这便补齐了传统 VLA 在物理预测和泛化适配上的短板,同时也补齐了世界模型无法完成动作闭环的缺口。

事实上,智平方早已用实际行动证明了这个思路的可行性。2025 年 11 月,他们发布了融合世界模型的 VLA 具身大模型 Video2Act,实现了先预测、后执行。这篇工作后来被世界模型领域的权威综述列为 " 深度融合的代表性架构 " 之一。

也是从那次发布开始,智平方让行业看到,世界模型和 VLA 本可以汇入同一条河流。

2. 学习人类大脑的古老智慧

2026 年 4 月,智平方发布自研类脑具身系统 NeuroVLA,在两条路线交汇后交出了一份最新答卷。

当前主流的做法,是用一个统一的超级大脑包揽感知、规划与运动控制等核心任务。但如果拆分来看,视觉理解是慢思考,需要几百毫秒来处理信息,但碰撞、失衡等物理事件却要求几十毫秒内响应,一个统一架构的大脑很难高效完成两类任务。

对此,人类神经系统数亿年的演化历史早已给出更优解。人类大脑皮层负责语义理解和慢思考;小脑负责运动协调和实时校正,处理身体的各种感觉信号;脊髓则掌管最原始的本能反射,能在几十毫秒内完成从感知到动作的闭环,根本不需要请示大脑。

三层系统彼此协同,把不同时间尺度的任务交给不同的器官,避免了信息过载和响应延迟,才让人类能够在思考 " 要不要接住这个杯子 " 的同时,手已经凭直觉先一步完成了动作。这是上亿年进化论筛选出的最优解。

于是,NeuroVLA 借鉴人脑工作机制,让机器人具备记忆、学习和自主进化能力,通过更少的数据完成学习与决策。为此,智平方构建了 " 皮层 - 小脑 - 脊髓 " 三级架构,各司其职,彼此协同。

最上层是语义规划部,对应大脑皮层。它利用 Qwen-VL 和 Q-Former 将视觉 - 语言输入提炼成紧凑的意图向量,只负责看明白场景、听懂指令,不参与毫秒级的运动细节。

中间层是动态调制部,功能对应小脑。它是一个独立的高频自适应控制器,每秒数百次读取机器人的本体感觉和六维力传感器数据。量化数据显示,机械臂在运动中的急动度(衡量抖动的指标)平均降低了 75% 以上。动作轨迹变得干净、稳定,为完成倒水、插孔等精细任务奠定了基础。

最底层是脉冲执行与反射部,对应脊髓。它部署在定制的 FPGA 神经形态处理器上,采用脉冲神经网络计算。与传统神经网络持续进行矩阵运算不同,脉冲神经网络是事件驱动的。神经元只在输入发生变化时才活跃,静止时几乎不耗能。

智平方还在这一层设计了一条硬连线的安全反射通路。当力传感器检测到突发冲击力,信号能在 20 毫秒内直达脊髓层,触发撤退或缓冲动作,完全绕过大脑皮层。

脉冲执行与反射部无疑是 NeuroVLA 最具革命性的创新。它遵循着一个古老的生物学常识。对于大多生物来说,生存的本能会倒逼出许多超常的绝技。羚羊或许不懂起跑加速的原理,却能在与狮子的角逐中迸发出巨大能量逃出生天。NeuroVLA 的脊髓层,正是把这种生理直觉赋予了机器。

在真实的碰撞恢复测试中,这套架构也确实展现出了近乎生物本能的生存能力。在机器人手持试管遭遇未知障碍时,传统 VLA 模型无一例外失败,它们要么无视碰撞继续前行,要么因处理延迟反应不及。而 NeuroVLA 先以小于 50 毫秒的反射迅速缩回,随后小脑模块就地重新规划绕行路径,任务成功率达到 54.8%。

此外,在执行摇晃烧杯这类重复性任务时,NeuroVLA 通过脊髓层脉冲脊髓模块以每秒 200 次的速度读取 ? 峰,让机器人不靠视觉数数,自主完成周期性的运动模式,并涌现出节奏感,表明其系统内部产生了对时间序列的记忆和学习能力。

这三层架构已经让机器人具备了和人脑原理相似的思考方式,同时解决了一个 Scaling Law 范式下的长期痛点,那就是极致的小样本学习能力和低功耗。

NeuroVLA 没有一味地依赖海量机器人数据。团队使用预训练的 Qwen-VL 和数百个下游样本进行微调,并通过代理梯度(surrogate gradient)实现 SNN 的端到端训练,使得类脑架构的训练门槛大幅降低,具备实际工程可行性。

同时,仿脊髓执行层在运行时的平均功耗仅 0.4W,比一部播放视频的手机还省电。这是由于脉冲神经网络用事件驱动替代持续计算,不做事就不耗电,从根本上改变了能耗曲线。

这很容易让人联想到 DeepSeek 在 LLM 领域带来的震动。DeepSeek 用架构层面的精巧设计证明了少即是多,智平方在具身智能领域实现了相似的逻辑,跳出简单的堆料思维,重新思考智能的生产方式。

「甲子光年」认为,一个有生命力的机器人大脑,不应该是困在数据中心的傀儡,它必须能够真正进入物理世界,作为一个独立的生命体存在。NeuroVLA 打破了行业过去三年奉行的暴力美学的路径依赖,证明了架构创新可以用极少的资源消耗抵达更广阔的能力边界,更有望成为具身智能从实验室 demo 走向真实场景长期服役的关键转折。

而这个转折,是智平方在过往三年多的技术探索中,一步步摸索到的。

3. 预测未来最好的方式,就是创造未来

成立以来,智平方的技术迭代速度非常快,且足够大胆。

2023 年,行业主流还在用 " 小模型 / 分层 / 垂域模型 + 外挂大模型 " 的拼接方案时,刚成立不久的智平方就押注端到端 VLA,成为全球除谷歌、特斯拉外最早走这条路的创业公司。

此后几乎每半年,智平方就有一次重要的架构升级。

2024 年率先将 Mamba 引入机器人 VLA,发布 RoboMamba,在模型规模仅为谷歌 RT-2 的 1/20 时,性能提升超 80%。

2025 年 6 月受快慢思考机制启发,发布 FiS-VLA,首创异构输入、异步频率的双系统架构,性能超越国际标杆 Pi0 达 30%。与拼接两个模型的做法不同,这套快慢脑本质上来自同一个模型,只是被切成两半,后端用高频信号刷新、前端保持原有频率,因此耦合更紧密,快系统即使被打断,慢系统也能把动作接续回来。

2025 年 11 月,Video2Act 将世界模型融入 VLA,实现先预测、后执行;2026 年 4 月,NeuroVLA 又将类脑思路完善到 " 皮层 - 小脑 - 脊髓 " 的分层控制体系。

「甲子光年」梳理发现,智平方的快速迭代并不盲目。从 Mamba 到快慢系统,再到类脑分层," 术 " 的层面始终敏锐捕捉前沿方向," 道 " 的层面却始终如一,专注探索用更精巧的架构,创造更高效的智能。

但郭彦东比谁都清楚,再精巧的架构,也只是故事的上半场。大脑设计得再聪明,如果身体跟不上,或者永远被关在实验室里,那终究只是纸上谈兵。

作为大湾区具身智能领域的代表性企业,智平方从诞生起就带着这片土地鲜明的产业底色。它紧邻最完整的供应链,背靠最活跃的应用市场,也因此比同行更早地探索技术如何落地这道必答题。

此前,在智源大会的演讲中,他说了一段话:" 没有 AI,机器人只是硬件;没有硬件,AI 只是代码;没有真实场景,机器人也只能是实验室的 demo,一定要在真实场景当中让机器人持续学习。" 这是他对行业的期待,更是对智平方的要求。

郭彦东曾直言,当前机器人产业面临的重要挑战之一,是工业、公共服务以及未来家庭场景之间长期存在的应用鸿沟。在他看来,解决这一问题的关键,在于统一硬件与统一模型。无论机器人工作于工厂还是公共场所,都应该采用统一硬件平台,并由同一个基础模型驱动。

与此同时,不同场景产生的数据持续回流至同一个机器人大脑。工业场景提升机器人精度与稳定性,公共服务场景增强交互与泛化能力,两类能力相互促进,并最终为未来家庭应用奠定基础。

目前,智平方已经延续这一思路,在多个行业、场景完成规模化落地。

2025 年,智平方建成年产能超 2000 台的半自动化产线,生产力型机器人进入常态化批量交付,从产能建设、产品落地到成本管控的全链条已经完整跑通。

面向快速攀升的市场需求,智平方目前已经铺开分阶段扩产路线图:产线扩容、供应链协同、工艺优化三条线同步推进,每个环节都落了明确的实施节点。2026 年下半年,公司将启动数万台级生产力具身人形机器人产线建设,为大规模商业化交付夯实制造底座。

其中,智平方对于落地场景的优先级判断逻辑非常务实。

工业柔性制造是起始点和切入点,公共服务是通往家庭服务的阶梯,而家庭场景因为环境的狭小性和不确定性,目前更适合做数据采集,而非真实的商业化服务。 因此,考虑到公司发展和产业链成熟的节奏,智平方先让机器人在半结构化的环境里成熟落地,再慢慢走向更复杂的非结构化世界。

目前,在半导体显示领域,智平方去年率先落地与惠科的 3 年 1000 台标杆合作,今年又实现了单一场景多客户复购,收获更多标志性客户;在生物制药领域,已完成在华熙生物产线的部署,并在今年开始新增多家生物制药企业的深入合作。

同时,公司持续打磨通用大模型能力,加快场景多元化落地,在公共服务、新零售等贴近民生的赛道落地多个真实商用项目。

在新零售领域,智平方的爱宝 " 智魔方 " 从咖啡、冰淇淋拓展到抹茶、啤酒等多品类,已在北京、上海、江苏、浙江、福建、广东、广西、贵州等省份实现常态化运营,日均工作超 10 小时。未来三年,公司计划在全国落地 1000 个爱宝智魔方,目前正从项目制交付向产品化批量化转型,将新场景落地周期大幅压缩。

爱宝 " 智魔方 " 北京朝阳公园店

这正是业内将智平方看作 " 最像特斯拉的中国机器人公司 " 的真正含义。

特斯拉做 Optimus,真正的护城河是把自动驾驶时代锻造的智能算法迁移到机器人身上,再叠加自有的量产能力和工厂场景,形成一个越用越聪明的闭环。

今天智平方遵循着同样的逻辑,已经构建起 " 模型 × 硬件 × 场景 " 的完整体系。郭彦东强调,机器人产业的发展必须建立在真实应用基础之上。场景带来数据,数据推动模型进化,更强的模型又进入更多场景,最终形成持续迭代的数据飞轮。

" 因为大模型泛化能力强,所以落地场景多;因为落地场景多,所以大模型持续领先。" 他表示,这种技术与场景相互促进的发展模式,正成为中国机器人企业快速成长的重要动力。

智平方的 NeuroVLA,通过对人类大脑数百万年进化史的一次回望,给行业交出了答卷,并且已经形成了实打实的商业闭环证明。如此一来,任何争辩都显得无力了。就像郭彦东在与「甲子光年」对话中所讲的:

" 预测未来最好的方式,就是创造未来。"

(文章为作者独立观点,不代表艾瑞网立场)

评论
大家都在看