连续佩戴 AI 眼镜一小时,按 1 fps 采样,大概要向云端发送 3600 帧画面。如果逐帧输入到视觉 - 语言模型(VLM)中,将累计消耗约 400 万 token,成本和延迟会迅速上升。流式视频输入带来的高成本和高延迟,是 VLM 应用于真实物理世界时首先要解决的问题。
与此同时,大多 AI Agent 在部署后都很难继续从失败中学习;现有的视频 - 问答(Video-QA)基准也难以验证模型能否在真实环境中持续调用工具、完成任务。
因此,无论是 AI 助手还是 AI 眼镜,距离长时间在线、持续进化都还有很大的距离。
针对上述问题,来自加州大学圣克鲁兹分校、北卡罗来纳大学教堂山分校的研究团队及其合作者提出了一个名为 "VisualClaw" 的自进化多模态 Agent,可在不更新模型权重的前提下降低流式视频处理成本,并能持续积累经验、迭代 skill,完成自进化。
在 4 个视频 - 问答基准上,与全帧上传相比,VisualClaw 将每个问题的 API 成本平均降低了 98%;对于 1 小时、1 fps 的视频流,其级联机制还可将原本约 3600 帧的上传需求降低到约 5 到 20 次上传请求。
论文链接:https://arxiv.org/abs/2606.16295
大量实验表明,VisualClaw 既可以大幅度降低 API 成本,也能带来稳定的性能提升。
VisualClaw 由三个不同时间尺度上的模块组成,分别负责逐帧筛选视频、逐题在回答问题时选择需要的 skill,以及在会话结束后根据失败更新 skill 库;整个过程中,VLM 权重始终不变。
图|VisualClaw 能够在真实场景中高效编码流式视频,并通过持续演化的 memory 库和 skill 库生成个性化的回答与动作。
在视频层面,VisualClaw 用一个级联编码门在设备端实时筛选视频,而不是把所有画面都传到云端。它先用 dHash 去掉重复帧,再提取颜色、亮度、边缘和纹理等轻量特征,并把每一帧分成三类:MAJOR 会作为关键帧上传到云端,MINOR 只用来更新参考帧,SKIP 则直接跳过。由于不需要等待后续画面,它可以直接处理实时视频流。
在提示词层面,VisualClaw 将 skill 分为冷热两层。每次回答问题时,热层保留少数相关 skill 的完整内容,冷层只保留其余 skill 的名称和简介。这样一来,即使 skill 库继续扩充,单次调用的提示词开销也不会同步上升。
在进化层面,VisualClaw 会根据失败案例更新 skill 库。高置信度的正确样例会存入 memory,失败积累到一定数量后,离线大模型再结合失败和相关 memory 生成新的 skill。与此同时,它还会持续去重和剪枝,避免 skill 库不断膨胀。
图|VisualClaw 的整体流程。
此外,现有静态 video-QA benchmark 很难评估模型在真实工作区中的操作能力。VisualClawArena 则将视频、文档、动态更新和可执行检查整合进同一 workspace,要求 Agent 不只回答问题,还要完成读写文件、处理冲突等任务,并交付可自动评分的结果。
图|VisualClawArena 的数据筛选流程。
VisualClawArena 基于三个现有数据源构建,共包含 200 个场景和 3106 个步骤。研究通过多轮校验与筛选,尽可能保留那些确实需要视频证据的任务,并保证场景完整可用。评测时,它也不只看答案,而是看 Agent 是否完成了整个 workspace,因此更接近真实使用场景。
图|VisualClawArena 的完整示例。
在静态 video-QA 基准上,研究团队分别测试了 Gemini 3 Flash 和 GPT-5.2 在 EgoSchema、EgoPlan-Bench、Video-MME long 和 NextQA 四个任务上的表现。整体来看,完整进化方案在多数设置下优于基线,其中 Guide 最稳定,平均提升 3.85%。以 EgoSchema 为例,Gemini 3 Flash 从 52.60% 提升到 68.40%。这说明 VisualClaw 的提升不只来自帧筛选,也来自 skill 和 memory 的持续更新。
图|Gemini 3 Flash 和 GPT-5.2 在 4 个基准测试上的结果。
在更接近真实使用场景的 VisualClawArena 上,表现最好的完整进化方案则是 Cat.。其中,Codex 后端的 VisualClaw 在 macro accuracy 上达到 54.27%,比无进化基线高出 2.92 个百分点;Claude Code 后端达到 52.16%,提高 3.16 个百分点。这个结果也说明,进入多步 Agent 工作流后,直接保留原始 memory 中的具体线索,可能比先把它概括成通用 skill 更有效。
图|VisualClawArena 结果。
在成本上,VisualClaw 也体现出明显优势。如果看四个静态 video-QA 基准的总 API 开销,VisualClaw 也能把 full-frame 1 fps 方案的花费从 563.31 美元压到 10.51 美元。在持续在线场景中,对于 1 小时、1 fps 的视频流,级联机制还可以将原本约 3600 帧的上传需求压缩到约 5 到 20 次上传请求。
图|Gemini 3 Flash 在各基准上的 API 成本对比。
在 VisualClawArena 上,Claude Code 的 Cascade-8 配置也相比 Uniform-8 总成本下降了 9.5%。
图|VisualClawArena 上的 agent / evolver 调用次数及可获得的成本统计。
案例分析也支持这一点。在论文展示的两个例子里,级联机制都只保留了极少量关键帧,而真正带来答案修正的,是后续的 skill 进化和 memory 检索。
图|VisualClaw 的案例分析。
不过,研究团队也提醒,VisualClaw 的效果并不稳定地适用于所有模型和任务:有些 skill 更依赖特定模型,FullEvo 也主要在中高难度任务上更有效。级联选帧同样并非始终优于均匀采样,在一些长视频上,Uniform-8 仍可能是更合适的选择。
同时,研究团队还提到两类部署风险。第一类来自自动评分:如果评分标准本身有偏差,这种偏差就可能在多轮进化中不断被写进 skill 库,因此大规模部署时仍需要定期人工检查。第二类来自模型差异:同一套 skill 库对一种 VLM 可能有帮助,换到另一种 VLM 上却可能变成负担。未来,更稳妥的做法不是一套配置通用,而是针对不同模型分别调整 skill 库、冷热注入方式和 memory 融合策略。
研究团队也承认,这套方法还需要更长时间和更大范围的验证。现有的 skill 库去重与剪枝机制,在主实验中更像是一种长期保障。面对更长的演化过程是否依然有效,还有待观察;部分评测和成本统计的覆盖范围也还有限。此外,VisualClaw 在提高 AI 眼镜等持续视觉系统可行性的同时,也可能降低持续视觉监控的部署门槛。未来,平台级访问控制和相关政策约束仍需进一步加强。
更多技术细节,详见原论文。
作者:夏千斯
如需转载或投稿,请直接在本文章评论区内留言


登录后才可以发布评论哦
打开小程序可以发布评论哦