类脑VLA加持，智平方吸金50亿元，估值冲上200亿元

导语：据《深圳特区报》报道，具身智能企业智平方完成一系列新融资，融资总额近 50 亿元人民币，估值超 200 亿元。

据《深圳特区报》报道，具身智能企业智平方完成一系列新融资，融资总额近 50 亿元人民币，估值超 200 亿元，成为粤港澳大湾区首个估值正式突破 200 亿元的具身智能企业。

「甲子光年」发现，本轮融资中，更值得留意的是资方的构成——中国文化产业体系基金、国家中小企业基金、广东省人工智能基金、南山战新投、粤港澳大湾区系列基金等区域重点平台持续加码；中国生物制药（正大集团）、康龙化成、茅台集团、招商局资本、五洲新春、万丰控股、中贝通信等多家产业龙头集体押注；多家保险公司以及中金资本、中信建投、洪泰资本等头部券商系资本及市场化投资机构深度参与；更有达晨财智、敦鸿资产、道得投资、锡创投、梁创投等老股东持续超额追加投资。

目前，智平方已集结国家队、大湾区、地方、险资、券商、千亿产业方、头部财投集体入局。这样一条完整的出资链条，在一个尚未形成商业化闭环的赛道里并不常见。

市场正在用真金白银押注的，是智平方开辟的一条少有人走的技术路线——类脑 VLA。

今年智平方推出并开源了自研原创的类脑 VLA 模型 NeuroVLA，该具身智能系统同时具备主动感知、故障自恢复与时序记忆三大类生物运动能力的具身智能系统，被业内视为下一代机器人大脑的重要演进方向。

6 月 23 日至 25 日，在夏季达沃斯论坛上，智平方创始人兼 CEO 郭彦东博士向世界重点介绍了类脑具身智能系统 NeuroVLA，并分享了中国机器人产业的发展路径与实践思考。

智平方创始人兼 CEO 郭彦东

郭彦东抛出了一个对行业的根本判断。

" 如果所有人都沿着同样的大模型路线继续往前走，我们需要 10 倍的数据、10 倍的电力。但现实世界并没有无限的数据和能源。" 他认为，下一代机器人大脑不应只是算力和数据的竞赛，更需要探索更高效、更可持续的发展路径。而类脑智能、小样本学习以及低功耗计算，将成为下一代机器人大脑的重要发展方向。

1. 不要困于路线之争

2026 年春天，具身智能行业路线之争愈演愈烈，世界模型和 VLA 成为一道分界线，划出两派不同信仰的玩家，新的终局判断层出不穷。

这些争论本质是在争夺一种名义上的胜利。但机器人产业的真实痛点从未改变，就是要提高机器人在不同场景下的动作执行效率、稳定性以及泛化性。

当前的机器人能够近乎完美地执行预设动作，例如跳舞、翻跟斗等，但实时交互的动作都很慢。机器人虽然能听懂实时交互的指令，也能完成任务，但遇到难度较高的任务，机器人要么手抖，要么大脑宕机。" 这本质是由于大模型和机器人全身控制结合不佳导致的。" 郭彦东总结道。

因此，郭彦东试图跳出争议本身，从更务实的维度审视 VLA 和世界模型的价值。他认为，世界模型不是 VLA 的竞争路线，而是 VLA 体系中的核心组成部分。

郭彦东曾对「甲子光年」表示，VLA 本身一个具有终局感且很有生命力的模型架构。" 任何能够在真实世界中执行任务的智能系统，都必须具备三项核心能力，即对世界的感知、对逻辑的推理以及对行为的控制。视觉、语言、行动三要素是永远存在的，变化的只是它们的组织方式。" 他说。

在当前的语境下，VLA 里面的 V（Vision，视觉）不应只代表视觉，它应当代表着模型对物理世界的某种感知方式。而近半年热议的世界模型，可以看作 VLA 架构的一个最新变种。

在今年的智源大会上，郭彦东还做了更详细的拆解。他把世界模型定义为对物理环境进行稠密、包含时间维度的 4D 预测，它是一个非常好的空间基础模型，但本身并不直接输出动作，也不直接处理视觉输入。

因此，如果将世界模型和 VLA 结合，便能形成很好的能力互补。VLA 中融入世界模型后，便能内生地形成对物理规律的理解，不再被动地映射 " 感知→动作 " 的对应关系，能够预测动作的后果，在行动之前进行模拟推演。这便补齐了传统 VLA 在物理预测和泛化适配上的短板，同时也补齐了世界模型无法完成动作闭环的缺口。

事实上，智平方早已用实际行动证明了这个思路的可行性。2025 年 11 月，他们发布了融合世界模型的 VLA 具身大模型 Video2Act，实现了先预测、后执行。这篇工作后来被世界模型领域的权威综述列为 " 深度融合的代表性架构 " 之一。

也是从那次发布开始，智平方让行业看到，世界模型和 VLA 本可以汇入同一条河流。

2. 学习人类大脑的古老智慧

2026 年 4 月，智平方发布自研类脑具身系统 NeuroVLA，在两条路线交汇后交出了一份最新答卷。

当前主流的做法，是用一个统一的超级大脑包揽感知、规划与运动控制等核心任务。但如果拆分来看，视觉理解是慢思考，需要几百毫秒来处理信息，但碰撞、失衡等物理事件却要求几十毫秒内响应，一个统一架构的大脑很难高效完成两类任务。

对此，人类神经系统数亿年的演化历史早已给出更优解。人类大脑皮层负责语义理解和慢思考；小脑负责运动协调和实时校正，处理身体的各种感觉信号；脊髓则掌管最原始的本能反射，能在几十毫秒内完成从感知到动作的闭环，根本不需要请示大脑。

三层系统彼此协同，把不同时间尺度的任务交给不同的器官，避免了信息过载和响应延迟，才让人类能够在思考 " 要不要接住这个杯子 " 的同时，手已经凭直觉先一步完成了动作。这是上亿年进化论筛选出的最优解。

于是，NeuroVLA 借鉴人脑工作机制，让机器人具备记忆、学习和自主进化能力，通过更少的数据完成学习与决策。为此，智平方构建了 " 皮层 - 小脑 - 脊髓 " 三级架构，各司其职，彼此协同。

最上层是语义规划部，对应大脑皮层。它利用 Qwen-VL 和 Q-Former 将视觉 - 语言输入提炼成紧凑的意图向量，只负责看明白场景、听懂指令，不参与毫秒级的运动细节。

中间层是动态调制部，功能对应小脑。它是一个独立的高频自适应控制器，每秒数百次读取机器人的本体感觉和六维力传感器数据。量化数据显示，机械臂在运动中的急动度（衡量抖动的指标）平均降低了 75% 以上。动作轨迹变得干净、稳定，为完成倒水、插孔等精细任务奠定了基础。

最底层是脉冲执行与反射部，对应脊髓。它部署在定制的 FPGA 神经形态处理器上，采用脉冲神经网络计算。与传统神经网络持续进行矩阵运算不同，脉冲神经网络是事件驱动的。神经元只在输入发生变化时才活跃，静止时几乎不耗能。

智平方还在这一层设计了一条硬连线的安全反射通路。当力传感器检测到突发冲击力，信号能在 20 毫秒内直达脊髓层，触发撤退或缓冲动作，完全绕过大脑皮层。

脉冲执行与反射部无疑是 NeuroVLA 最具革命性的创新。它遵循着一个古老的生物学常识。对于大多生物来说，生存的本能会倒逼出许多超常的绝技。羚羊或许不懂起跑加速的原理，却能在与狮子的角逐中迸发出巨大能量逃出生天。NeuroVLA 的脊髓层，正是把这种生理直觉赋予了机器。

在真实的碰撞恢复测试中，这套架构也确实展现出了近乎生物本能的生存能力。在机器人手持试管遭遇未知障碍时，传统 VLA 模型无一例外失败，它们要么无视碰撞继续前行，要么因处理延迟反应不及。而 NeuroVLA 先以小于 50 毫秒的反射迅速缩回，随后小脑模块就地重新规划绕行路径，任务成功率达到 54.8%。

此外，在执行摇晃烧杯这类重复性任务时，NeuroVLA 通过脊髓层脉冲脊髓模块以每秒 200 次的速度读取 ? 峰，让机器人不靠视觉数数，自主完成周期性的运动模式，并涌现出节奏感，表明其系统内部产生了对时间序列的记忆和学习能力。

这三层架构已经让机器人具备了和人脑原理相似的思考方式，同时解决了一个 Scaling Law 范式下的长期痛点，那就是极致的小样本学习能力和低功耗。

NeuroVLA 没有一味地依赖海量机器人数据。团队使用预训练的 Qwen-VL 和数百个下游样本进行微调，并通过代理梯度（surrogate gradient）实现 SNN 的端到端训练，使得类脑架构的训练门槛大幅降低，具备实际工程可行性。

同时，仿脊髓执行层在运行时的平均功耗仅 0.4W，比一部播放视频的手机还省电。这是由于脉冲神经网络用事件驱动替代持续计算，不做事就不耗电，从根本上改变了能耗曲线。

这很容易让人联想到 DeepSeek 在 LLM 领域带来的震动。DeepSeek 用架构层面的精巧设计证明了少即是多，智平方在具身智能领域实现了相似的逻辑，跳出简单的堆料思维，重新思考智能的生产方式。

「甲子光年」认为，一个有生命力的机器人大脑，不应该是困在数据中心的傀儡，它必须能够真正进入物理世界，作为一个独立的生命体存在。NeuroVLA 打破了行业过去三年奉行的暴力美学的路径依赖，证明了架构创新可以用极少的资源消耗抵达更广阔的能力边界，更有望成为具身智能从实验室 demo 走向真实场景长期服役的关键转折。

而这个转折，是智平方在过往三年多的技术探索中，一步步摸索到的。

3. 预测未来最好的方式，就是创造未来

成立以来，智平方的技术迭代速度非常快，且足够大胆。

2023 年，行业主流还在用 " 小模型 / 分层 / 垂域模型 + 外挂大模型 " 的拼接方案时，刚成立不久的智平方就押注端到端 VLA，成为全球除谷歌、特斯拉外最早走这条路的创业公司。

此后几乎每半年，智平方就有一次重要的架构升级。

2024 年率先将 Mamba 引入机器人 VLA，发布 RoboMamba，在模型规模仅为谷歌 RT-2 的 1/20 时，性能提升超 80%。

2025 年 6 月受快慢思考机制启发，发布 FiS-VLA，首创异构输入、异步频率的双系统架构，性能超越国际标杆 Pi0 达 30%。与拼接两个模型的做法不同，这套快慢脑本质上来自同一个模型，只是被切成两半，后端用高频信号刷新、前端保持原有频率，因此耦合更紧密，快系统即使被打断，慢系统也能把动作接续回来。

2025 年 11 月，Video2Act 将世界模型融入 VLA，实现先预测、后执行；2026 年 4 月，NeuroVLA 又将类脑思路完善到 " 皮层 - 小脑 - 脊髓 " 的分层控制体系。

「甲子光年」梳理发现，智平方的快速迭代并不盲目。从 Mamba 到快慢系统，再到类脑分层，" 术 " 的层面始终敏锐捕捉前沿方向，" 道 " 的层面却始终如一，专注探索用更精巧的架构，创造更高效的智能。

但郭彦东比谁都清楚，再精巧的架构，也只是故事的上半场。大脑设计得再聪明，如果身体跟不上，或者永远被关在实验室里，那终究只是纸上谈兵。

作为大湾区具身智能领域的代表性企业，智平方从诞生起就带着这片土地鲜明的产业底色。它紧邻最完整的供应链，背靠最活跃的应用市场，也因此比同行更早地探索技术如何落地这道必答题。

此前，在智源大会的演讲中，他说了一段话：" 没有 AI，机器人只是硬件；没有硬件，AI 只是代码；没有真实场景，机器人也只能是实验室的 demo，一定要在真实场景当中让机器人持续学习。" 这是他对行业的期待，更是对智平方的要求。

郭彦东曾直言，当前机器人产业面临的重要挑战之一，是工业、公共服务以及未来家庭场景之间长期存在的应用鸿沟。在他看来，解决这一问题的关键，在于统一硬件与统一模型。无论机器人工作于工厂还是公共场所，都应该采用统一硬件平台，并由同一个基础模型驱动。

与此同时，不同场景产生的数据持续回流至同一个机器人大脑。工业场景提升机器人精度与稳定性，公共服务场景增强交互与泛化能力，两类能力相互促进，并最终为未来家庭应用奠定基础。

目前，智平方已经延续这一思路，在多个行业、场景完成规模化落地。

2025 年，智平方建成年产能超 2000 台的半自动化产线，生产力型机器人进入常态化批量交付，从产能建设、产品落地到成本管控的全链条已经完整跑通。

面向快速攀升的市场需求，智平方目前已经铺开分阶段扩产路线图：产线扩容、供应链协同、工艺优化三条线同步推进，每个环节都落了明确的实施节点。2026 年下半年，公司将启动数万台级生产力具身人形机器人产线建设，为大规模商业化交付夯实制造底座。

其中，智平方对于落地场景的优先级判断逻辑非常务实。

工业柔性制造是起始点和切入点，公共服务是通往家庭服务的阶梯，而家庭场景因为环境的狭小性和不确定性，目前更适合做数据采集，而非真实的商业化服务。因此，考虑到公司发展和产业链成熟的节奏，智平方先让机器人在半结构化的环境里成熟落地，再慢慢走向更复杂的非结构化世界。

目前，在半导体显示领域，智平方去年率先落地与惠科的 3 年 1000 台标杆合作，今年又实现了单一场景多客户复购，收获更多标志性客户；在生物制药领域，已完成在华熙生物产线的部署，并在今年开始新增多家生物制药企业的深入合作。

同时，公司持续打磨通用大模型能力，加快场景多元化落地，在公共服务、新零售等贴近民生的赛道落地多个真实商用项目。

在新零售领域，智平方的爱宝 " 智魔方 " 从咖啡、冰淇淋拓展到抹茶、啤酒等多品类，已在北京、上海、江苏、浙江、福建、广东、广西、贵州等省份实现常态化运营，日均工作超 10 小时。未来三年，公司计划在全国落地 1000 个爱宝智魔方，目前正从项目制交付向产品化批量化转型，将新场景落地周期大幅压缩。

爱宝 " 智魔方 " 北京朝阳公园店

这正是业内将智平方看作 " 最像特斯拉的中国机器人公司 " 的真正含义。

特斯拉做 Optimus，真正的护城河是把自动驾驶时代锻造的智能算法迁移到机器人身上，再叠加自有的量产能力和工厂场景，形成一个越用越聪明的闭环。

今天智平方遵循着同样的逻辑，已经构建起 " 模型 × 硬件 × 场景 " 的完整体系。郭彦东强调，机器人产业的发展必须建立在真实应用基础之上。场景带来数据，数据推动模型进化，更强的模型又进入更多场景，最终形成持续迭代的数据飞轮。

" 因为大模型泛化能力强，所以落地场景多；因为落地场景多，所以大模型持续领先。" 他表示，这种技术与场景相互促进的发展模式，正成为中国机器人企业快速成长的重要动力。

智平方的 NeuroVLA，通过对人类大脑数百万年进化史的一次回望，给行业交出了答卷，并且已经形成了实打实的商业闭环证明。如此一来，任何争辩都显得无力了。就像郭彦东在与「甲子光年」对话中所讲的：

" 预测未来最好的方式，就是创造未来。"

（文章为作者独立观点，不代表艾瑞网立场）