具身龙虾，上车理想

别人家的 " 龙虾 " 还在盯着屏幕玩电脑，理想已经把 " 龙虾 " 带上车了！

最近，理想发布了全新的流式视频理解与具身智能统一的 Agent 框架——

StreamingClaw。

在保持与 OpenClaw 框架完全兼容的基础上，StreamingClaw原生支持实时的多模态流式交互。

这意味着，系统在面对视觉输入时，不再将其视为死板的离线视频文件，而是像人类感知世界一样，实时捕获流数据（Stream）并进行即时推理。

比如，这只虾不仅能在驾驶中盯着你，检测可疑动作（哈欠、玩手机）并主动预警。

还能在你取车的时候，主动跟你打招呼。

与此同时，StreamingClaw 还引入了自主多代理调度机制。

依托主 - 从代理的紧密协同，它不仅能自主完成复杂的任务规划与逻辑决策，更深度集成了丰富的工具及技能库，在现实场景中实现了指令驱动的具身智能。

在 StreamingClaw 的加持下，机器人与终端设备实现了极低延迟的 " 边看、边记、边行动 "：

比如，它可以实时上识别你手持的物品，帮你解题。

不难看出，在这些复杂场景中，StreamingClaw 的核心硬实力在于实时推理与瞬时响应。

而支撑这只 " 理想龙虾 " 在物理世界灵活行动的，正是一整套围绕 " 流式架构 " 展开的系统设计。

从 " 离线处理 " 到 " 主动闭环 "

不同于大模型等对延迟（相对）不敏感的场景，在具身智能、AI 硬件及智能座舱等领域，系统往往需要在毫秒级完成感知—决策—执行的闭环：

感知（看）：通过摄像头捕获环境；

决策（想）：AI 大脑规划对策；

执行（做）：驱动硬件或指令，并根据动作后的新环境再次循环。

然而，现有的视频 Agent 在处理实时感知（流式感知）时往往面临着延迟较高的问题。

之所以这样是因为，传统方法通常将视频视为完整文件处理。长视频的计算量呈指数级爆炸，难以实时响应；

同时，模型难以持续追踪长时程信息，导致决策草率、频繁遗忘，甚至直接任务失败。

针对这些问题，以往的研究尝试通过视觉压缩或 Token 精简来缓解负载，但同时也导致了细节丢失，无法准确定位等问题。

更致命的是，传统模型大多是被动触发：你不问，它不动，缺乏对环境风险的主动感知。

StreamingClaw 通过 " 增量计算 " 改写了这一逻辑。

它不再机械地重复处理历史画面，而是将环境的细微变化视为增量信号进行推理更新。

这意味着，它不仅能 " 看 " 得更准、记 " 得更久，还能在思考过程中自主调用工具，实现从感知到物理干预的真正闭环。

这就是所谓的流式推理，与处理现成文件的 " 离线模式 " 不同，其要求 AI 必须像观看直播一样，在数据不断涌入的同时即时分析，不允许任何严重滞后。

接下来，我们具体来看 StreamingClaw 是怎么做到的。

具身智能的流式交互引擎

总体来看，StreamingClaw 是一个高度协同的多代理（Multi-agent）架构。它通过一套标准化的流水线，打破了不同硬件之间的壁垒：

首先，无论是智能眼镜、自动驾驶芯片还是具身机器人，所有多模态流式输入都会通过时间戳对齐与共享流式缓存 *进行标准化处理，确保 AI 拥有统一的 " 时间尺度 "。

其次，核心大脑StreamingReasoning（主代理） 负责实时感知与规划；StreamingMemory与StreamingProactivity（从代理） 则分别提供长效记忆支撑与主动交互决策。

最后，代理生成的决策指令会直接驱动工具箱与技能库。

从简单的视频剪切到复杂的具身动作序列，执行结果会即时反馈至代理，形成一套完整的 " 感知—决策—执行 " 闭环。

这种架构让 StreamingClaw 不仅能听懂指令，更能通过自主规划与工具调用，真正深入现实场景解决问题。

流式推理：：StreamingReasoning

流式推理（StreamingReasoning）主要针对具有连续输入输出的流视频理解场景。

其核心目标是在极低延迟的约束下，实现对现实世界的实时感知、理解与推理。

在实时流式推理方面，系统会将输入的视频流拆分为细粒度片段，并通过动态滑动窗口严格控制上下文范围，从源头上避免无效信息的堆积。

在此基础上，结合经过剪枝优化的流式 KV-Cache 机制，StreamingReasoning 可以持续进行高效的增量解码，使整体推理过程始终紧贴视频流节奏运行，而不会出现延迟堆积。

在此之上，系统引入了自规划调度能力，充当整个流程的 " 总指挥 "。

它能够动态解析用户指令，并自主规划任务路径。在面对复杂任务时，系统会根据需要选择调用层级化记忆进行检索，或转而触发主动交互决策；

而在常规场景下，则保持直接、低延迟的流式多模态推理，使整体交互过程始终顺畅自然。

流式存储：StreamingMemory

StreamingMemory 存储真正的多模态向量，通过层级记忆演化（HME）机制，以应对复杂的流视频理解任务。

具体来说，在记忆机制上，系统以视觉为核心，将多模态信息组织为可持续增长的增量式记忆节点，避免原始数据的简单堆叠。

这些记忆进一步从碎片演化为更高层级的 " 行动 " 和 " 事件 "，使检索对象从画面本身转向可用于决策的结构化经验。

在此基础上，系统通过命令驱动的并行时间遍历实现高效检索，在长时序信息中快速定位关键内容，同时保证鲁棒性。

同时，统一的接口设计打通跨代理记忆，使不同 Agent 既能共享关键经验，又能进行差异化管理，从而支撑更高效的协同。

从代理：StreamingProactivity

StreamingProactivity 面向未来事件预测、推理与主动交互设计，其目标既可以由用户预先设定，也可以在流式过程中持续演化。

当请求被识别为主动交互时，主代理会将其转化为持续在线的监控任务，例如追踪行为、判断事件或监控风险。

一旦满足触发条件，系统即刻生成通知或解释性响应，形成 " 感知—推理—触发—反馈 " 的闭环，避免反复查询。

这一机制主要覆盖两类场景，一类是时间感知交互，强调对状态随时间演化的持续跟踪；

另一类是事件定位交互，聚焦关键事件在时间流中的精确识别，常见于异常检测与自动标注等任务。

在实现上，系统分为免训练适配与训练适配两种路径。

免训练适配无需额外训练，通过将触发条件结构化为可监控节点，在流式过程中匹配视觉信号并即时生成响应；同时支持目标在线更新，形成持续演化的主动交互闭环。

训练适配则将状态变化建模为视觉语言信号，引入场景专用触发 Token，使感知与任务解耦，并在单次推理中完成多事件识别与响应生成。

该方案在复杂场景下具备更高精度、更强泛化能力，同时显著降低并发任务下的推理开销。

整体来看，StreamingProactivity 实现了全天候在线的主动交互，使系统能够持续感知变化并触发响应。

可扩展的工具与技能：闭环的最后一公里

为了真正让 AI 影响物理世界，StreamingClaw 还提供了高效工具与技能接口，从而完成了 " 感知—决策—执行 " 闭环的最后一个环节。

除了标准的工具组合外，研究还引入了专为视频理解和流式交互定制的专业工具。

比如，Video Cut 工具可以在关键片段中精准裁剪时间戳，将内容送入大型多模态模型进行 " 显微级分析 "，再输出精简文本结果。

总体而言，StreamingClaw 面向流式视频场景，基于多模态大模型实现感知、理解与语音输出，但当前仍以 " 视觉 + 文本 " 为核心输入范式，对音频输入、精细时序对齐及跨模态联合推理的支持仍有限。

未来，系统将演进为统一的全模态代理框架，打通视频、图像、音频与文本的输入输出，实现真正的感知 - 执行闭环；

同时强化长时程建模、空间理解与跨模态对齐能力，并持续优化低延迟部署与记忆、工具调用机制，以支撑更真实世界的具身交互。

参考链接

[ 1 ] https://jackyu6.github.io/StreamingClaw-Page/

[ 2 ] https://arxiv.org/pdf/2603.22120

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

风云变幻的 Q1，谁是 AI 超级应用？

量子位智库「AI 100」旗舰、创新双产品榜单开启招募！

扫码申报，让你的产品成为季度风向标。

宙世代

一起剪

相关标签