为什么全球外卖平台都在算法上砸了上百亿美元,可一份餐从后厨到骑手手里那十来分钟,还是得靠人手忙脚乱地打包、封签、分拣?离开美团后,王栋花了好几个月在北美和新加坡走访餐饮商家,最后琢磨出一个判断:餐饮后厨这个听起来不怎么起眼的地方,可能是具身智能最具确定性的商业落地方向之一。
元节智能这家公司最近完成了千万级种子轮融资,由英诺科创基金领投,水木清华校友种子基金和一些知名投资人个人跟投。这笔钱要砸向的是餐饮场景的具身世界模型研发和核心产品落地。公司对外透露,他们已经拿到了国内外多家头部公司的产品合作部署意向。对一支刚起步的团队来说,这至少说明一件事——餐饮后厨的自动化需求不是凭空假设出来的。

创始团队的履历有点意思。CEO 王栋博士曾经是美团外卖事业部技术负责人,管过上千人的产研团队,手底下跑的是日均数千万订单的外卖算法、数据和系统架构。联合创始人李滔之前执掌美团外卖的算法与数据体系,是少数真正把 " 全链路数据算法驱动 " 跑通过的技术负责人。另一位联合创始人李浩哲则是连续创业者,有多年全球化商业落地的经验。这三个人加起来,既懂大规模系统怎么做,也清楚餐饮场景的自动化坑都在哪里。
说起来,餐饮数字化已经被 SaaS 系统、点餐小程序、配送调度引擎翻来覆去地改造过一遍了。但有个长期被忽视的问题,随着全球外卖订单量持续攀升,正变得越来越扎眼:从商家出餐到骑手取餐之间,打包、封签、分拣、接驳这些操作仍然高度依赖人工。错单、漏单、撒漏带来的损耗,会像多米诺骨牌一样同时传导到用户、商家、骑手和平台四个方向。而放眼全球,这个行业还在面临结构性的用工难题——北美快餐业的时薪一路走高,国内餐饮门店则长期困在招工难、流动率高的循环里。
王栋的判断建立在一个很直白的逻辑上。首先,这是全球共通的需求,不管是哪个市场,餐饮行业都在跟人力成本和履约效率较劲。其次,投资回报率足够清晰:只要能把错单率往下压、减少人工、把出餐效率提上去,商家掏钱的理由很直接。第三点尤其关键——餐饮属于专业服务领域,不像家庭、养老场景那样强调复杂的情感交互,决策链条短得多,中小商家尝试新方案的意愿也更强。王栋接受采访时说,服务业占全球 GDP 的巨大比例,如果在餐饮后厨这个高频场景里建起真正可运行的具身方案,实现从模型到应用的系统性闭环,这件事本身价值就够大了,未来还有可能延伸到家庭厨房等更复杂的场景。
技术路线选择上,元节智能没有走 " 先造通用机器人再找场景 " 的常见路径,也没有一上来就直奔通用具身世界模型。王栋的观察是,移动能力经过七八年发展,其实已经基本解决了,现在行业真正的焦点开始转向精细操作。灵巧手离成熟还有距离,但二指、三指夹爪已经出现大量成熟的工程化方案,足以支撑一部分标准化任务先落地。他们想做的是面向餐饮场景的 " 世界动作模型 ",也就是 WAM。王栋认为,VLA 这条路线过度依赖语言模块做高层规划,对视觉表征不足,而真实世界的动作控制本质上并不那么依赖语言。" 人类真正的动作控制路径,其实没有那么强依赖 language。更核心的问题,是视觉理解、物理理解,以及动作如何与真实世界建立映射。"
为此,元节智能在模型层面更强调融合视觉和触觉,也就是他们所说的 VT-WAM。王栋这样解释背后的思路:视觉看得见物体,却看不见接触;触觉看不见全局,却看得见成败。视觉映射的是世界的几何侧面,触觉映射的是世界的物理侧面,VT-WAM 把这两类信息通过隐空间综合进一个能预判接触后果的模型里。他举了个具体的例子——一个饮料杯到底装没装水、装了几分满、温度是冷是热,这些都会影响机器人抓取时的摩擦力、重心变化和操作稳定性。如果模型不能理解液体晃动、重心偏移这些物理属性背后的因果关系,而只是靠数据拟合,那抓取和操作的稳定性和精细度就无从谈起。
系统架构上,元节智能的方案分三层。最上层是具身世界模型,负责理解后厨环境、做决策和动作规划;中间一层是任务编排和调度引擎,把认知结果转成具体执行计划,统一调度不同设备;底层则是自研核心部件和通用硬件本体的融合,得保证系统在真实后厨环境里能长期稳定运行。这套架构的底层逻辑很清楚:不是造出通用机器人再去找场景,而是在一个足够高频、足够痛的场景里持续收集真实交互数据,反过来喂养世界模型,让模型在物理世界中越来越聪明。餐饮后厨每天重复着打包、分拣、搬运、烹饪、接驳这些动作,天然就能产生海量、多样化的真实世界数据,而且这类数据光靠仿真环境很难生成。
落地切入点的选择也带着实用主义色彩。元节智能目前从 " 外卖打包与接驳 " 环节动手,这是整个履约链路里出错率最高、标准化程度相对较高、价值最容易量化的地方。王栋说得很直接:" 打包环节的任务范围清晰,场景可控,我们的路径是以商业价值为依据,先聚焦提升抓取精准度,做到可用可靠。" 他还补充了一句大实话——商家不关心你的机器人像不像人、会不会跳舞,只在乎你到底能帮他干什么活。具体执行上,高频标准化动作比如套餐装盒、封签,交给端侧轻量化小模型来跑,降低延迟和网络依赖;云端大模型主要用来处理物料缺失、异物干扰这类异常情况,并通过 KDS 系统联动后厨人工补位。按照团队目前的节奏,打包环节的模型预计会在 2026 年内进入真实商家后厨进行规模化部署。而更长远的设想是,从打包这个单点出发,继续往分拣、配送接驳、烹饪协同甚至更广泛的服务业场景延伸。


登录后才可以发布评论哦
打开小程序可以发布评论哦