Agent终于长出了身体：Jiuwen Symbiosis背后的思考与实践

如果你在三年前问 AI 圈：未来最强的 AI 长什么样？

大部分人可能会回答，一个更大的 GPT，更多参数，更长上下文，更强推理能力。

然后我们一路从 GPT-3.5 走到 GPT-4、Claude、Gemini、DeepSeek、Qwen。

直到今天，突然发现一个有趣的问题：AI 已经学会写代码了，学会做数学题了，甚至学会和你讨论人生意义了，但它依然不会给自己倒一杯水。

这正是当前 AI 最大的局限之一：

AI 没有身体。

今天，openJiuwen 社区正式开源Jiuwen Symbiosis，一个专为更高阶的 physical AI 打造的 Symbiosis（共生）架构。

从虚拟数字世界到真实物理世界，我们给 AI 装上了感知和行动的 " 骨骼与肌肉 "。

Gitcode 传送门：gitcode.com/openJiuwen/jiuwensymbiosis

（动动小手，Star 一下不迷路⭐）

Moravec 悖论：最难的不是高数，而是走路

1988 年，机器人学家 Hans Moravec 提出了后来著名的 Moravec's Paradox（莫拉维克悖论），其核心思想非常反直觉：

对于计算机来说：

下国际象棋很容易

做高等数学很容易

而对于人类婴儿都能完成的事情，反而异常困难：

行走

抓取

避障

保持平衡

原因很简单，这些能力并不是逻辑推导出来的，而是数百万年进化形成的身体智能。

这就是大模型时代的" 缸中之脑 "困境：智商 200，但没有实体，对真实物理世界的摩擦力、重力和空间几何一无所知。

从 " 缸中之脑 " 到 " 身体力行 "：智能的进化史

智能对外在机器本体控制的演进，本质上就是一场从数字世界到物理现实的历程：

1.0 手搓任务（借助人的辅助）：

依靠人的理解，进行极为原子化的控制操作。

2.0 虚拟环境演练（Sim2Real）：

在 Habitat、AI2-THOR 等仿真环境里模拟，开始有了空间概念，同时训练一个或多个模型，使得大脑可以分析理解指令，并进行任务执行。

在 2.0 这个阶段，一系列的问题会凸显出来，最为人诟病的是：

缺乏跨本体环境泛化能力：模型一旦训练完成，其技能集合即固化。要让机器人学会 " 开抽屉后抓取内部物体 "，需要重新采集数据、重新训练整个模型。VLA 缺乏组合泛化能力——无法将已学的 " 开抽屉 " 与 " 抓取 " 零样本组合为新任务。

长程复合任务能力不足：当前模型擅长短程原子操作（如 " 抓取红色方块 "），但面对长程复合任务（如 " 从料架上取 Tray 盘→绕过设备→放入机台→按压确认→返回原位 "），单一 VLA 模型缺乏任务分解、子任务编排、异常回退的能力。它只能在训练分布内 " 模仿 "，无法在运行时 " 规划 "。

故障定位困难：当前模型将 " 视觉→语言理解→物理推理→动作生成 " 全部压缩进一个 Transformer，运行时失败（如抓取偏移、碰撞）无法定位故障根因——是感知误识别、语言歧义、物理推理错误，还是控制轨迹发散。

成功率低，稳定性差：当前模型端到端基础模型为典型黑盒结构，直接输出关节位姿等底层动作指令，大模型兼顾认知决策与运动控制，整体实现难度大，模型稳定性差、任务成功率低。

3.0 共生时代（Jiuwen Symbiosis 正在做的）：

模糊虚拟与现实的边界，让 Agent 能够真正理解物理法则，并直接输出控制硬件底层拓扑的 Action 序列。

Agent 时代的到来

2023 年以后，Agent 成为整个 AI 领域最火热的方向之一。

大家发现：大模型已经具备不错的推理能力，真正缺少的是行动能力。于是出现了：

Tool Calling

Function Calling

MCP

Browser Agent

Computer Use Agent

Agent 开始获得操作世界的能力，它们不再只是回答问题。但这里依然存在一个问题：这些 Agent 操作的仍然是数字世界。

不是物理世界。

但经过一系列的演进，openJiuwen 团队相信具有物理能力的 Agent 时代已经悄然到来，它比前辈们向着真实世界更加向前迈进了一步。

下一步是让 Agent 走进现实世界。简单来说，传统 Agent 可以简化为如下过程：

而 physical AI Agent 的模式发生了本质的改变—— Agent 不再面对文本，而是面对真实世界，需要与现实环境进行交互反馈，整体过程可以简化为如下：

但 openJiuwen 团队认为这依然是远远不够的，人类在执行任务的过程中，观察、反馈等过程是一个不间断的实时系统。

同时，理论上，从传感器 -->VLM-->LLM-->Planner-->ROS 的整个过程看起来是非常优雅，但实际执行过程中，极有可能变成 JSON 的极限堆积，并且系统越复杂，这个现象越明显。

最终导致，Agent 到底在想什么，为什么做出这个决策，为什么执行失败，全部变成糊涂账。

Jiuwen Symbiosis：让 Agent 拥有透明的态势感知系统

Jiuwen Symbiosis 的设计理念非常简单：

Agent 的思考过程应该是可观察、可调试、可协作的。

团队尝试把 Agent 的内部状态显式暴露出来，而不是隐藏在黑盒中。

在 Jiuwen Symbiosis 中：认知层与执行层通过共享 Workspace 协作，解决复杂任务执行，保障认知正确与快速响应，并极大简化跨本体适配。

同时，其实现过程又是丰富且严谨的，openJiuwen 团队将这个核心骨架称为：态势感知环（Situation Awareness Loop）。

在此基础上，团队增加了若干功能模块，例如安全规划，状态感知，观测反馈，空间记忆等关键技术模块。

多模态感知（Multimodal Perception）

使 physical AI Agent 主动感知世界，是 Agent 由数字走向物理的基础。

同时，把理解从决策中分离，在进行 Action 之前对场景进行充分理解，产出结构化世界状态，例如被检测对象、对象位姿、置信度等。

安全规划（Safe Planning）

基于 Prompt 任务指令与结构化世界状态，进行任务规划，对相关 Skill 中的参数动态赋值，并进行物理可行性、安全性与约束校检，拒绝不可执行方案。

物理执行（Physical Action）

按照 Skill 的建议，调用相关 Action Tool 原子能力，最终完成位移、抓取、放置、交互等一系列连续可控的物理运动。

状态观察（Observation）

负责对物理动作执行后的真实世界状态进行采集与结构化提取。

通过视觉等传感器获取执行结果，识别物体位姿、环境变化、交互效果等关键信息，输出结构化的世界观测状态，为后续 Feedback 偏差计算提供客观依据。

观测反馈（Feedback）

基于观测结果构建闭环修正机制，将执行偏差、异常状态、成功 / 失败判据回传至推理与规划模块。

实现动作参数实时调整、规划序列动态优化、异常场景自主恢复，同时沉淀交互数据用于技能迭代，形成 " 感知 - 规划 - 执行 - 观测 - 反馈 " 的完整闭环，持续提升态势感知规划的鲁棒性。

空间记忆（Spatial Memory）

通过物体级感知，实现对空间的对象化表征（如 3D Scene Graph），构建物体级的空间关系；通过变化检测技术发现事件，自动化增量式维护空间关系。

同时，通过时间维度压缩，空间层级聚合和情景事件聚类，形成多时空尺度的组织，使能任务驱动的空间上下文构建。

拥有以上能力的 physical AI Agent 将为行业带来如下变化，体现在如下方面：

Zero 跨本体，跨环境自主适应泛化能力；

针对复杂任务，具备自主拆解，分步执行能力；

减少对训练数据的依赖；

本体操作的自我总结与进化能力。

用户视角下的 Jiuwen Symbiosis：

从用户视角，Jiuwen Symbiosis 就是一个" 能懂人话、看得见物理世界、长了四肢的智能助手 "。

用户不需要示教，不需要教它怎么抓东西，怎么走路，就像指挥一个经验丰富的工人一样，用自然语言下任务，它就能自己完成感知、理解、规划、执行。

Symbiosis：共生，而非控制

为什么叫 Symbiosis？

因为我们相信未来并不是：

而是：

这是一种新的持续协作关系。在这个系统中，Agent 不只是工具，而是长期合作伙伴。

它能够：

理解目标

主动规划

请求帮助

从反馈中学习

从而形成真正的人机共生。

我们将教给机器人 How，而不是传统的 What，允许尝试并及时纠错，沉淀经验，最终达到自我演进的目标。

终极的 physical AI 不会由某一家企业完成，正如 Linux 没有由一家公司构建，ROS 没有由一家公司构建。未来的行业生态也需要开放协作，因此 openJiuwen 团队决定开源 Jiuwen Symbiosis。

希望它成为一个透明的 Agent for Physics、一个可扩展的 physical AI 框架、一个连接大模型与机器人世界的桥梁。

共生的另一层解读是算力生态的亲和共生。

Jiuwen Symbiosis 轻量化的视觉感知模型可部署在本地端侧，消耗显存较低，对包括 Ascend 在内的多种生态，都可以有较好的适配，例如采用 Ascend-SACT/GroundingDINO 等。

其输出结果完全兼容主流检测格式，可直接对接昇腾版及其他生态兼容模型，完成下游任务联动。

Jiuwen Symbiosis 与昇腾、鲲鹏

很多 physical AI 系统仍然沿用 " 大模型 +GPU" 的思路。

但在真实机器人场景中，问题往往不是单纯的模型推理，而是如何让感知、认知、规划和执行在有限功耗和有限带宽下形成稳定闭环。

Jiuwen Symbiosis 从设计之初就采用了端云协同架构：其中，大规模推理和复杂规划运行在云侧 LLM/VLM，端侧则专注于实时感知与执行。

这种架构与昇腾、鲲鹏的异构计算能力形成了天然匹配：

昇腾提供较高 TOPS 的 AI 推理能力，可承担目标检测、视觉理解、多模态感知等高频任务；

鲲鹏 CPU 则负责工具调度、任务编排、状态管理以及机器人控制逻辑，实现低延迟、高可靠的执行链路。

更重要的是，Jiuwen Symbiosis 继承了 OpenJiuwen 在鲲鹏与昇腾生态上的优化成果。

在某些场景中，系统能够将规划负载卸载到昇腾 NPU，将 Agent Runtime、Memory、Workspace、Tool Calling 等逻辑运行在鲲鹏 CPU 上，从而避免传统 GPU 方案中 " 所有任务争抢同一计算资源 " 的瓶颈。

最终形成一种更符合机器人运行规律的资源分工。

这种分层架构不仅提升系统吞吐能力，也显著降低了端侧部署成本和整体功耗，使 Jiuwen Symbiosis 能够更自然地运行在机器人、机械臂、四足机器人以及边缘智能设备等真实场景中。

未来

今天的 Agent 已经学会阅读，正在学会思考。

下一步，它们将学会行动。

而当感知、认知与行动形成闭环时，真正的 physical AI 时代也许才刚刚开始。

如果你也在探索：

Embodied AI

Robotics Agent

VLA/VLM

World Model

Physical Intelligence

ROS2

Multi-Agent Systems

欢迎加入 openJiuwen 社区，一起构建下一代物理世界的智能系统。

华为云 AgentArts 也已将 openJiuwen 引入到商业化平台能力中，开箱即用，访问华为云官网即可体验。

* 本文系量子位获授权刊载，观点仅为原作者所有。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见