36氪 03-27
为机器人提供“通用大脑”,「X Square」连续完成数千万元天使轮与天使+轮融资
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 周鑫雨

编辑 | 邓咏仪

36 氪获悉,具身智能大模型初创企业 "X Square" 近期连续完成了由联想之星投资的数千万元人民币的天使轮融资,和由九合创投领投的数千万元人民币的天使 + 轮融资,一苇资本担任 X Square 独家财务顾问。

成立于 2023 年 12 月,X Square 聚焦于 " 通用具身大模型 " 的研发,为机器人提供通用大模型底座。公司的目标是为机器人构建一个通用的大脑 - 小脑系统,提供从感知到动作的端到端能力。

在 AI 的发展历史中,人们发现了一种与直觉相悖的现象:越是人类认为的高阶智慧能力例如棋类运动和数学越容易被 AI 实现;但越是无意识的技能和直觉却越难以用 AI 模拟。

这个被称为 " 莫拉维克悖论 " 的现象在具身智能领域体现得淋漓尽致:感知环境、操作物体是人类最为本能和基础的能力,但从实现难度上来说,却可以被认为是所有 AI 领域的巅峰。这也正是为什么在 ChatGPT 等大模型在部分高级认知能力上已经接近甚至超越人类的今天,AI 仍然无法在 " 低级的 " 体力劳动中取代人类的原因。

一些迹象表露,适配具身智能的通用大模型,将成为 AI 赛道的一个重点。谷歌曾表示,AI 机器人很强大,但通用性很差,比如一款扫地机器人要根据特定的环境、动作、障碍、反馈等数据进行长期训练和反复测试。2023 年 10 月,谷歌 DeepMind 发布了全球最大的机器人通用模型 RT-X。RT-X 在无需训练或者极少训练的情况下,就能执行一些特定任务。

2024 年 3 月 19 日,英伟达发布了人形机器人通用基础模型 Project GR00T,"AI 教父 " 黄仁勋评价:" 开发通用人形机器人基础模型是当今 AI 领域中最令人兴奋的课题之一。"

此前对具身智能的研究,很长一段时间都发展相对缓慢。X Square 创始人兼 CEO William   Wang 告诉 36 氪,其原因在于,机器人任务非常复杂," 一个部分是对周围环境的感知、推理和任务规划等 high   level 能力,另一部分是类似运动皮层和小脑对运动进行直接控制的 low   level 能力 "。

"单从硬件层面来说,即使是最复杂的操作,当前市面上的硬件水平也已经可以支持,而卡点在于智能本身。"William 对 36 氪表示。

由于缺乏智能涌现和通用性,传统 Robotics Learning 的范式难以为机器人提供复杂精确操作的能力,如处理可变形的物体和复杂随机的摩擦。直到 2020 年后,Transformer 结构在机器人模型上的应用以及 Imitation   Learning(模仿学习)、Offline Reinforcement Learning(离线强化学习)等新的训练方式的成熟,才让机器人在操作任务的端到端运动控制上有了新的突破。同时多模态的能力使得机器人的 high   level 能力得到突破性进展,William 告诉 36 氪," 莫拉维克悖论 " 终于到了可以被挑战的临界点。

传统切分场景的方法难以提高模型的通用性,因此 X Square 将机器人的任务流程分成两大部分:

1、根据人类指令和意图,多模态大语言模型进行高层次的推理和规划;

2、机器人通用模型依据规划的指令端到端生成执行动作。X Square 依靠软硬一体的研发能力和对大模型的理解,将物理世界的交互与模型训练相结合,推动模型通用操作能力的发展。

简而言之,X Square 自研的机器人通用模型平台,是多模态大模型、机器人控制大模型(Large Manipulation Model)、机器人本体的结合

据 X Square 介绍,目前团队自研的基础模型已经达到世界先进水平,可以训练机器人完成复杂而精细的物理操作。比如公司已经能够实现面对表面不规则或光滑的物体,例如蔬菜、香肠等,进行精细化的切割;机器人也可以完成饮料的冲泡,包括拿起勺子,从罐子里舀出果汁粉放入杯中,再倒入水冲果汁。

以上均为大模型自主推理。(考虑到时长,该视频做了加速处理)图源:X Square

X Square CTO Hao Wang 告诉 36 氪,机器人通用模型的核心,仍是训练数据,"LLM 和物理世界无关,数据可以充分利用全球外包,但机器人需要软硬一体、数据 - 模型一体的能力 "。他认为,作为世界硬件中心的中国具有天然优势," 中国开始做 LLM 的时间晚于美国,但具身智能基础模型与美国更接近同一起跑线 "。

在商业化层面,X Square 在 B、C 两端均有布局。William 认为,具身智能可以投入现实使用的实现时间要快于大部分人的预期,3-5 年的时间应该就能有初步商业化落地。

X Square 团队既有来自 Robot Learning 顶级实验室的的成员,也有 LLM 方面的专家,同时有软硬一体开发与系统优化的能力。不到三个月的时间内,团队已经能够通过大模型让机器人自主完成数十种复杂任务。

创始人兼 CEO William 是全球最早在神经网络中引入注意力机制的学者之一,并在美国顶级机器人实验室参与了多项机器人学习项目。

CTO Hao 出身 IDEA 研究院,曾担任封神榜大模型团队算法负责人,开发了包括文生图模型 " 太乙 "、通用大模型 " 姜子牙 " 系列等,开源模型累计下载超百万。

以下是投资人评价:

联想之星认为:将预训练模型应用在机器人领域,使机器人完成通用性复杂任务成为可能,也让机器人有可能真正理解物体概念和任务,从而深入的理解世界,进而实现具身智能。具身智能是划时代的技术进步,有望实现机器人行业整体升级。X Square 团队,机器人、大模型等领域研究、工程经验完备,是本领域不可多得的团队。联想之星一直以来重点布局机器人领域,投资了一批创新型优秀机器人公司。在新技术代际迭代的当下,愿意陪伴新一代团队成长,共同探索具身智能的未来。

九合创投认为:具身智能方向长期将带来巨大的市场机会和机器人服务的变革。X Square 团队关注具身智能模型能力的持续迭代,团队从模型侧发力,不断提升智能化水平,早期模型在执行复杂任务上表现出了竞争力。期待 X Square 团队不断带来更好的模型效果,带来具身智能的 " 涌现时刻 "。

一苇资本合伙人林文欣认为:X Square 团队在机器人与大模型方面均具备极强的技术实力与技术前瞻性,在不到三个月的时间内即完成了技术架构的搭建和早期模型的训练,成长速度超乎预期。一苇非常荣幸见证和陪伴 X Square 团队的成长,期待 X Square 引领具身智能走入千家万户的一天。

欢迎交流

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

机器人 ai 谷歌 融资 天使轮
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论