小米前高管唐沐创业咖啡机器人,完成数亿融资,林斌、黎万强投过

作者 | 邱晓芬

编辑 | 袁斯来

硬氪获悉，通用餐饮具身机器人公司「影智 XBOT」连续完成数亿元两轮融资——其中，A 轮的 2 亿元融资由香港简坤资本 GPTX 出资，B 轮融资为 3-5亿元人民币，由多支政府基金、美元基金和产业投资方共同参与出资。

这是目前餐饮垂直机器人领域规模最大的一笔融资之一。

在此之前，「影智 XBOT」还完成了一轮天使融资，出资人阵容豪华——包括腾讯高级副总裁张小龙、小米联合创始人黎万强、黄江吉、林斌、洪锋、以及港科大首席副校长郭毅可等。

「影智 XBOT」成立于 2022 年，其创始人唐沐称得上机器人圈的 " 异类 " ——是机器人圈 CEO 中罕见的产品经理出身。

（图源 / 企业）

在此之前，他历任金山软件、腾讯 CDC 总经理，负责 QQ、QZone 等产品的体验设计；后又担任小米生态链副总裁，先后主导推出小米路由器、小爱音箱等千万出货量的标杆爆品，做产品的经验累计达 25 年。

只是，当整个具身智能赛道都在为人形进家庭和工厂的叙事而疯狂时，「影智 XBOT」却选择了一条看起来不那么 " 酷 "，却能快速产品化和商业化落地的路径——让机器人在商场角落做咖啡。

与多数主流人形机器人公司不同，「影智 XBOT」的技术架构围绕餐饮垂类场景设计，并以 "XOS 3.0 具身操作系统 " 为核心，采用了一脑多形的架构。

据唐沐介绍，该系统分为三层——

大脑层：负责高层认知与任务规划，搭载知味餐饮大模型，基于 DeepSeek 基座训练，融合了 400 万杯咖啡的真实出品数据；

小脑层：负责将语义指令转化为关节级控制信号，响应时间小于 10 毫秒，已沉淀 50 多种餐饮动作原子技能。

本体适配层：实现了跨形态复用，支持 " 一次研发，万形复用 "，可将咖啡臂的控制逻辑迁移至「影智 XBOT」的冰淇淋、调酒等其他机器人上。

这种架构帮助机器人规避了当前 VLA（视觉 - 语言 - 动作）模型泛化难的行业痛点。

唐沐向硬氪指出，行业内普遍认为 VLA 泛化能力差，是因为试图让一个模型同时完成叠衣服和做饭等截然不同的任务。而「影智 XBOT」的策略是限定场景，仅在异常处理时调用 VLA 模型作为兜底，以此节省算力并保证稳定性。

此外，「影智 XBOT」还搭建了一套完整的数据飞轮。

这一系统在实验室进行仿真预训练，并在真实商业场景中进行在线强化学习，依托 400 万杯以上的真实作业数据持续优化；同时，通过 RLHF（人类反馈强化学习），对齐 300 万次以上的人类偏好数据，不断提升模型表现。

而在搭好了模型、数据的基础设施底座之后，「影智 XBOT」近期发布了四条产品线，覆盖不同层次的餐饮具身需求。

XBOT C3 咖啡机器人：占地面积 1.83 平方米，采用 6 轴机械臂，重复定位精度 ± 0.02 毫米，每小时可出品 80 杯咖啡，满电状态下可连续制作 150 杯，配备 43 英寸数字人屏及 " 爱宝店长 "Agent，售价 21.9 万元；

XBOT I3 冰淇淋机器人：体积更小，每小时可出品 60 杯以上，制作失败率低于千分之五，设计寿命达 25 万杯，支持 4 种酱料和 4 种脆粒添加，售价 17.9 万元；

XBOT X1 通用餐饮人形机器人：配备 7 轴双臂，双臂协同精度≤ ± 1 毫米，搭载单颗辉羲 R1 芯片，提供 500TOPS 本地算力，计划于 2026 年底量产，可实现拿取、制作、放置、递送全链路闭环，预计 2026 年底发售；

XBOT CUBE 机器人快餐车：搭载 20 度电池，占地 8 平方米，支持咖啡、冰淇淋、调酒及烤肠等功能，上市时间待定。

唐沐向硬氪判断，由于人形和半人形并非所有场景的最优解，在未来，专用单臂机型与通用半人形机型将并行发展。

而为了保障未来的产能，目前，「影智 XBOT」在南京、岳阳、上海、北京亦庄的基地年产能达 2 万。

不过，技术必须服务于商业闭环，唐沐用 " 跑滴滴 " 来类比「影智 XBOT」的商业模式。

据其介绍，以浙江义乌某商场投放的 Lite 系列咖啡机器人为例，设备售价十余万元，日均出杯量约 200 杯，客单价约 20 元，单月累计营收可达 6 万元以上，净利润超过 3 万元。算下来，回本周期仅仅为 6 至 8 个月——机器设计寿命为 5 年，扣除回本周期后，剩余时间基本为纯利期。

唐沐以滴滴作类比：滴滴司机花费十几万元购车，还需全天绑定在车辆上，而同等价格的机器人仅需每天进行一次补料维护。从商业逻辑上看，咖啡机器人本质上是一台更高效的生产资料。

基于此，XBOT 没有采用行业常见的租赁模式。唐沐认为，租赁并不适合机器人时代，为此，「影智 XBOT」推行 RaaS 模式（Robot as a Service，机器人即服务），

据唐沐介绍，未来加盟商支付机器成本后，还需按月缴纳三项费用，包括物料订阅费（咖啡豆、奶制品等）、Agent Token 费（爱宝店长数字人服务）、以及维修保养费。

值得注意的是，目前，行业内仅有「影智 XBOT」持有 " 全国全品类食品经营许可证资质 "，这使得公司能够合法合规地控制供应链，从而锁定 RaaS 闭环。

在客户结构方面，「影智 XBOT」锁定了非咖啡连锁的异业客户，比如奢侈品店、家居店、4S 店等。

同时，「影智 XBOT」也为京东七鲜咖啡、亦庄机器人、菲柯机器人（FICO 咖啡）、吉旅控股（吉林冰雪文旅）、博物天行（文博场馆）提供解决方案，并与拥有四千多家门店的亚洲咖啡品牌共同探索海外市场。

截至目前，「影智 XBOT」的咖啡机器人已在全球 100+ 城市落地 1000+ 台，产出咖啡超过 400 万杯。2025 年，「影智 XBOT」营收已突破 1 亿元。唐沐向硬氪表示，2026 年，「影智 XBOT」手握的订单金额已接近 3-5 亿元。

而在成立短短四年内快速跑通技术、产品和商业闭环，有赖于「影智 XBOT」核心团队 " 铁军 "。

有意思的是，「影智 XBOT」团队配置不同于典型的机器人公司，更像是一家成熟消费品公司与 AI 公司的结合。

据介绍，「影智 XBOT」的机器人技术板块由王嘉力主导，作为哈工大机电博士，他曾任航天科工、三一集团、新松机器人等企业高管。

「影智 XBOT」的运营板块则由 " 瑞幸系 " 班底组成，其中包含曾负责大区超高体量门店连锁运营、品牌标准化体系、连锁培训体系搭建相关工作的曹锐锟、于涛等人。

以下是硬氪与唐沐的对话节选：

硬氪：选择切入商业场景，是基于什么考量？

唐沐：这个推导过程非常线性。第一步，我会首先排除 toC 家庭场景，当时观察行业趋势，很多团队前赴后继地训练机器人叠衣服、煮饭，钱烧了但结果不尽如人意，结论是除了扫地机器人这种用途被严格圈死的品类，通用家庭机器人短期内并不可行。

第二步，排除 toB 工业场景。黑灯工厂里传统的机械臂已经足够高效、稳定，根本没有空间让一个步履蹒跚、行为不可预测的人形机器人进去拖慢速度。工业场景不需要人形，需要的是效率。

第三步，锁定 toB 商业场景。既然家庭和工厂都不合适，那就在商业里寻找最大、最高频刚需且在增长的生意。推演下来，咖啡是最优解——它是全球通用的高频饮品，标准化程度高，且正处于快速增长期。所以，我们做咖啡机器人不是拍脑袋的灵感，而是排除了错误答案后，逻辑推导的必然产物。

硬氪：今年以来人形机器人估值飙升，而你们坚持做非人形垂类，你怎么看待这种形态选择？

唐沐：马斯克说人形符合第一性原理，但在很多工作场合，人形其实是累赘。长腿本身就要消耗大量算力和电力，站起来只为 " 看起来像人 "，并不解决实际需求。我们的逻辑是，非人形在很多场合能完成人干不了的事，反而更重要。

硬氪：在硬件选型上，你们坚持用六轴工业臂、夹爪、谐波减速器这些成熟的供应链产品，为什么？

唐沐：商业场景的第一准则是稳定，不是炫技。五指灵巧手标称能开合 10 万次，但在商场里，一旦抓空导致咖啡洒了，当天经营就会受影响，所以我们只用工业验证过的夹爪。关节也是同理，行星减速器只适合 " 摆大致动作 "，而谐波在重复定位精度、量产成本和使用寿命上都赢。商业不接受实验室里的 " 大概齐 "，必须追求确定性的 " 精准 "。

硬氪：现在很多公司都在讲 " 通用具身智能 "，你们却把场景限定在餐饮，这会限制未来的想象力吗？

唐沐：想象力不在于场景宽不宽，而在于能不能打透。过去有一段时间大家觉得 "VLA 已死 "，是因为想让它既叠衣服又做饭，这在通域里确实难。但在垂域里，把活限定死，它就会好用。就像黑灯工厂里的机械臂，连眼睛都不用长，单一活低成本干好就行。

我们甚至大部分时候连 VLA 都不想触发，只在异常处理时才调用，省算力。将来几乎所有产品都会具身化，但不可能都变成机器人。所以，「影智 XBOT」的目标是把餐饮这个垂直场景打透，通过 " 作业 - 数据 - 模型 " 的飞轮，成为具身智能时代的 SaaS 公司。

首页图源 | 企业供图

排版｜范馨雅

欢迎交流

宙世代

一起剪

相关标签