学术头条 昨天
成本降低98%,还能自进化:VisualClaw让流式视频Agent真正可用
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

连续佩戴 AI 眼镜一小时,按 1 fps 采样,大概要向云端发送   3600 帧画面。如果逐帧输入到视觉 - 语言模型(VLM)中,将累计消耗约 400 万   token,成本和延迟会迅速上升。流式视频输入带来的高成本和高延迟,是   VLM 应用于真实物理世界时首先要解决的问题。

与此同时,大多 AI Agent   在部署后都很难继续从失败中学习;现有的视频 - 问答(Video-QA)基准也难以验证模型能否在真实环境中持续调用工具、完成任务。

因此,无论是 AI 助手还是 AI 眼镜,距离长时间在线、持续进化都还有很大的距离。

针对上述问题,来自加州大学圣克鲁兹分校、北卡罗来纳大学教堂山分校的研究团队及其合作者提出了一个名为 "VisualClaw" 的自进化多模态 Agent,可在不更新模型权重的前提下降低流式视频处理成本,并能持续积累经验、迭代 skill,完成自进化。

在 4 个视频 - 问答基准上,与全帧上传相比,VisualClaw   将每个问题的 API 成本平均降低了 98%;对于 1 小时、1 fps 的视频流,其级联机制还可将原本约 3600 帧的上传需求降低到约 5 到 20 次上传请求。

论文链接:https://arxiv.org/abs/2606.16295

大量实验表明,VisualClaw 既可以大幅度降低 API 成本,也能带来稳定的性能提升。

VisualClaw 由三个不同时间尺度上的模块组成,分别负责逐帧筛选视频、逐题在回答问题时选择需要的 skill,以及在会话结束后根据失败更新 skill 库;整个过程中,VLM 权重始终不变。

图|VisualClaw 能够在真实场景中高效编码流式视频,并通过持续演化的 memory 库和 skill 库生成个性化的回答与动作。

在视频层面,VisualClaw 用一个级联编码门在设备端实时筛选视频,而不是把所有画面都传到云端。它先用   dHash 去掉重复帧,再提取颜色、亮度、边缘和纹理等轻量特征,并把每一帧分成三类:MAJOR   会作为关键帧上传到云端,MINOR   只用来更新参考帧,SKIP   则直接跳过。由于不需要等待后续画面,它可以直接处理实时视频流。

在提示词层面,VisualClaw 将 skill 分为冷热两层。每次回答问题时,热层保留少数相关 skill 的完整内容,冷层只保留其余 skill 的名称和简介。这样一来,即使 skill 库继续扩充,单次调用的提示词开销也不会同步上升。

在进化层面,VisualClaw 会根据失败案例更新 skill 库。高置信度的正确样例会存入 memory,失败积累到一定数量后,离线大模型再结合失败和相关 memory 生成新的 skill。与此同时,它还会持续去重和剪枝,避免 skill 库不断膨胀。

图|VisualClaw 的整体流程。

此外,现有静态 video-QA benchmark 很难评估模型在真实工作区中的操作能力。VisualClawArena 则将视频、文档、动态更新和可执行检查整合进同一 workspace,要求 Agent 不只回答问题,还要完成读写文件、处理冲突等任务,并交付可自动评分的结果。

图|VisualClawArena 的数据筛选流程。

VisualClawArena   基于三个现有数据源构建,共包含 200 个场景和 3106 个步骤。研究通过多轮校验与筛选,尽可能保留那些确实需要视频证据的任务,并保证场景完整可用。评测时,它也不只看答案,而是看 Agent 是否完成了整个   workspace,因此更接近真实使用场景。

图|VisualClawArena 的完整示例。

在静态 video-QA 基准上,研究团队分别测试了 Gemini 3 Flash 和 GPT-5.2 在 EgoSchema、EgoPlan-Bench、Video-MME long 和 NextQA 四个任务上的表现。整体来看,完整进化方案在多数设置下优于基线,其中 Guide 最稳定,平均提升 3.85%。以 EgoSchema 为例,Gemini 3 Flash 从 52.60% 提升到 68.40%。这说明 VisualClaw 的提升不只来自帧筛选,也来自 skill 和 memory 的持续更新。

图|Gemini 3 Flash 和 GPT-5.2 在 4 个基准测试上的结果。

在更接近真实使用场景的   VisualClawArena   上,表现最好的完整进化方案则是 Cat.。其中,Codex 后端的 VisualClaw 在 macro accuracy 上达到 54.27%,比无进化基线高出 2.92 个百分点;Claude Code 后端达到 52.16%,提高 3.16 个百分点。这个结果也说明,进入多步 Agent 工作流后,直接保留原始 memory 中的具体线索,可能比先把它概括成通用 skill 更有效。

图|VisualClawArena 结果。

在成本上,VisualClaw 也体现出明显优势。如果看四个静态 video-QA 基准的总 API 开销,VisualClaw 也能把 full-frame 1 fps 方案的花费从 563.31 美元压到 10.51 美元。在持续在线场景中,对于 1 小时、1 fps 的视频流,级联机制还可以将原本约 3600 帧的上传需求压缩到约   5 到 20 次上传请求。

图|Gemini 3 Flash 在各基准上的 API 成本对比。

在   VisualClawArena   上,Claude Code 的 Cascade-8 配置也相比 Uniform-8 总成本下降了 9.5%。

图|VisualClawArena 上的 agent / evolver 调用次数及可获得的成本统计。

案例分析也支持这一点。在论文展示的两个例子里,级联机制都只保留了极少量关键帧,而真正带来答案修正的,是后续的 skill 进化和 memory 检索。

图|VisualClaw 的案例分析。

不过,研究团队也提醒,VisualClaw 的效果并不稳定地适用于所有模型和任务:有些 skill 更依赖特定模型,FullEvo 也主要在中高难度任务上更有效。级联选帧同样并非始终优于均匀采样,在一些长视频上,Uniform-8 仍可能是更合适的选择。

同时,研究团队还提到两类部署风险。第一类来自自动评分:如果评分标准本身有偏差,这种偏差就可能在多轮进化中不断被写进 skill 库,因此大规模部署时仍需要定期人工检查。第二类来自模型差异:同一套 skill 库对一种 VLM 可能有帮助,换到另一种 VLM 上却可能变成负担。未来,更稳妥的做法不是一套配置通用,而是针对不同模型分别调整   skill 库、冷热注入方式和   memory 融合策略。

研究团队也承认,这套方法还需要更长时间和更大范围的验证。现有的 skill 库去重与剪枝机制,在主实验中更像是一种长期保障。面对更长的演化过程是否依然有效,还有待观察;部分评测和成本统计的覆盖范围也还有限。此外,VisualClaw   在提高 AI 眼镜等持续视觉系统可行性的同时,也可能降低持续视觉监控的部署门槛。未来,平台级访问控制和相关政策约束仍需进一步加强。

更多技术细节,详见原论文。

作者:夏千斯

如需转载或投稿,请直接在本文章评论区内留言

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 物理 加州大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论