量子位 昨天
具身龙虾,上车理想
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

别人家的 " 龙虾 " 还在盯着屏幕玩电脑,理想已经把 " 龙虾 " 带上车了!

最近,理想发布了全新的流式视频理解与具身智能统一的 Agent 框架——

StreamingClaw

在保持与 OpenClaw 框架完全兼容的基础上,StreamingClaw原生支持实时的多模态流式交互

这意味着,系统在面对视觉输入时,不再将其视为死板的离线视频文件,而是像人类感知世界一样,实时捕获流数据(Stream)并进行即时推理。

比如,这只虾不仅能在驾驶中盯着你,检测可疑动作(哈欠、玩手机)并主动预警。

还能在你取车的时候,主动跟你打招呼。

与此同时,StreamingClaw 还引入了自主多代理调度机制

依托主 - 从代理的紧密协同,它不仅能自主完成复杂的任务规划与逻辑决策,更深度集成了丰富的工具及技能库,在现实场景中实现了指令驱动的具身智能。

在 StreamingClaw 的加持下,机器人与终端设备实现了极低延迟的 " 边看、边记、边行动 ":

比如,它可以实时上识别你手持的物品,帮你解题。

不难看出,在这些复杂场景中,StreamingClaw 的核心硬实力在于实时推理与瞬时响应。

而支撑这只 " 理想龙虾 " 在物理世界灵活行动的,正是一整套围绕 " 流式架构 " 展开的系统设计。

从 " 离线处理 " 到 " 主动闭环 "

不同于大模型等对延迟(相对)不敏感的场景,在具身智能、AI 硬件及智能座舱等领域,系统往往需要在毫秒级完成感知—决策—执行的闭环:

感知(看):通过摄像头捕获环境;

决策(想):AI 大脑规划对策;

执行(做):驱动硬件或指令,并根据动作后的新环境再次循环。

然而,现有的视频 Agent 在处理实时感知(流式感知)时往往面临着延迟较高的问题。

之所以这样是因为,传统方法通常将视频视为完整文件处理。长视频的计算量呈指数级爆炸,难以实时响应;

同时,模型难以持续追踪长时程信息,导致决策草率、频繁遗忘,甚至直接任务失败。

针对这些问题,以往的研究尝试通过视觉压缩或 Token 精简来缓解负载,但同时也导致了细节丢失,无法准确定位等问题。

更致命的是,传统模型大多是被动触发:你不问,它不动,缺乏对环境风险的主动感知。

StreamingClaw 通过 " 增量计算 " 改写了这一逻辑。

它不再机械地重复处理历史画面,而是将环境的细微变化视为增量信号进行推理更新。

这意味着,它不仅能 " 看 " 得更准、记 " 得更久,还能在思考过程中自主调用工具,实现从感知到物理干预的真正闭环。

这就是所谓的流式推理,与处理现成文件的 " 离线模式 " 不同,其要求 AI 必须像观看直播一样,在数据不断涌入的同时即时分析,不允许任何严重滞后。

接下来,我们具体来看 StreamingClaw 是怎么做到的。

具身智能的流式交互引擎

总体来看,StreamingClaw 是一个高度协同的多代理(Multi-agent)架构。它通过一套标准化的流水线,打破了不同硬件之间的壁垒:

首先,无论是智能眼镜、自动驾驶芯片还是具身机器人,所有多模态流式输入都会通过时间戳对齐共享流式缓存 *进行标准化处理,确保 AI 拥有统一的 " 时间尺度 "。

其次,核心大脑StreamingReasoning(主代理) 负责实时感知与规划;StreamingMemoryStreamingProactivity(从代理) 则分别提供长效记忆支撑与主动交互决策。

最后,代理生成的决策指令会直接驱动工具箱与技能库

从简单的视频剪切到复杂的具身动作序列,执行结果会即时反馈至代理,形成一套完整的 " 感知—决策—执行 " 闭环。

这种架构让 StreamingClaw 不仅能听懂指令,更能通过自主规划与工具调用,真正深入现实场景解决问题。

流式推理::StreamingReasoning

流式推理(StreamingReasoning)主要针对具有连续输入输出的流视频理解场景。

其核心目标是在极低延迟的约束下,实现对现实世界的实时感知、理解与推理。

实时流式推理方面,系统会将输入的视频流拆分为细粒度片段,并通过动态滑动窗口严格控制上下文范围,从源头上避免无效信息的堆积。

在此基础上,结合经过剪枝优化的流式 KV-Cache 机制,StreamingReasoning 可以持续进行高效的增量解码,使整体推理过程始终紧贴视频流节奏运行,而不会出现延迟堆积。

在此之上,系统引入了自规划调度能力,充当整个流程的 " 总指挥 "。

它能够动态解析用户指令,并自主规划任务路径。在面对复杂任务时,系统会根据需要选择调用层级化记忆进行检索,或转而触发主动交互决策;

而在常规场景下,则保持直接、低延迟的流式多模态推理,使整体交互过程始终顺畅自然。

流式存储:StreamingMemory

StreamingMemory 存储真正的多模态向量,通过层级记忆演化(HME)机制,以应对复杂的流视频理解任务。

具体来说,在记忆机制上,系统以视觉为核心,将多模态信息组织为可持续增长的增量式记忆节点,避免原始数据的简单堆叠。

这些记忆进一步从碎片演化为更高层级的 " 行动 " 和 " 事件 ",使检索对象从画面本身转向可用于决策的结构化经验。

在此基础上,系统通过命令驱动的并行时间遍历实现高效检索,在长时序信息中快速定位关键内容,同时保证鲁棒性。

同时,统一的接口设计打通跨代理记忆,使不同 Agent 既能共享关键经验,又能进行差异化管理,从而支撑更高效的协同。

从代理:StreamingProactivity

StreamingProactivity 面向未来事件预测、推理与主动交互设计,其目标既可以由用户预先设定,也可以在流式过程中持续演化。

当请求被识别为主动交互时,主代理会将其转化为持续在线的监控任务,例如追踪行为、判断事件或监控风险。

一旦满足触发条件,系统即刻生成通知或解释性响应,形成 " 感知—推理—触发—反馈 " 的闭环,避免反复查询。

这一机制主要覆盖两类场景,一类是时间感知交互,强调对状态随时间演化的持续跟踪;

另一类是事件定位交互,聚焦关键事件在时间流中的精确识别,常见于异常检测与自动标注等任务。

在实现上,系统分为免训练适配与训练适配两种路径。

免训练适配无需额外训练,通过将触发条件结构化为可监控节点,在流式过程中匹配视觉信号并即时生成响应;同时支持目标在线更新,形成持续演化的主动交互闭环。

训练适配则将状态变化建模为视觉语言信号,引入场景专用触发 Token,使感知与任务解耦,并在单次推理中完成多事件识别与响应生成。

该方案在复杂场景下具备更高精度、更强泛化能力,同时显著降低并发任务下的推理开销。

整体来看,StreamingProactivity 实现了全天候在线的主动交互,使系统能够持续感知变化并触发响应。

可扩展的工具与技能:闭环的最后一公里

为了真正让 AI 影响物理世界,StreamingClaw 还提供了高效工具与技能接口,从而完成了 " 感知—决策—执行 " 闭环的最后一个环节。

除了标准的工具组合外,研究还引入了专为视频理解和流式交互定制的专业工具。

比如,Video Cut 工具可以在关键片段中精准裁剪时间戳,将内容送入大型多模态模型进行 " 显微级分析 ",再输出精简文本结果。

总体而言,StreamingClaw 面向流式视频场景,基于多模态大模型实现感知、理解与语音输出,但当前仍以 " 视觉 + 文本 " 为核心输入范式,对音频输入、精细时序对齐及跨模态联合推理的支持仍有限。

未来,系统将演进为统一的全模态代理框架,打通视频、图像、音频与文本的输入输出,实现真正的感知 - 执行闭环;

同时强化长时程建模、空间理解与跨模态对齐能力,并持续优化低延迟部署与记忆、工具调用机制,以支撑更真实世界的具身交互。

参考链接

[ 1 ] https://jackyu6.github.io/StreamingClaw-Page/

[ 2 ] https://arxiv.org/pdf/2603.22120

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

  风云变幻的 Q1,谁是 AI 超级应用?

量子位智库「AI 100」旗舰、创新双产品榜单开启招募!

扫码申报,让你的产品成为季度风向标。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

龙虾 技能 机器人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论