成本降低98%，还能自进化：VisualClaw让流式视频Agent真正可用

连续佩戴 AI 眼镜一小时，按 1 fps 采样，大概要向云端发送 3600 帧画面。如果逐帧输入到视觉 - 语言模型（VLM）中，将累计消耗约 400 万 token，成本和延迟会迅速上升。流式视频输入带来的高成本和高延迟，是 VLM 应用于真实物理世界时首先要解决的问题。

与此同时，大多 AI Agent 在部署后都很难继续从失败中学习；现有的视频 - 问答（Video-QA）基准也难以验证模型能否在真实环境中持续调用工具、完成任务。

因此，无论是 AI 助手还是 AI 眼镜，距离长时间在线、持续进化都还有很大的距离。

针对上述问题，来自加州大学圣克鲁兹分校、北卡罗来纳大学教堂山分校的研究团队及其合作者提出了一个名为 "VisualClaw" 的自进化多模态 Agent，可在不更新模型权重的前提下降低流式视频处理成本，并能持续积累经验、迭代 skill，完成自进化。

在 4 个视频 - 问答基准上，与全帧上传相比，VisualClaw 将每个问题的 API 成本平均降低了 98%；对于 1 小时、1 fps 的视频流，其级联机制还可将原本约 3600 帧的上传需求降低到约 5 到 20 次上传请求。

论文链接：https://arxiv.org/abs/2606.16295

大量实验表明，VisualClaw 既可以大幅度降低 API 成本，也能带来稳定的性能提升。

VisualClaw 由三个不同时间尺度上的模块组成，分别负责逐帧筛选视频、逐题在回答问题时选择需要的 skill，以及在会话结束后根据失败更新 skill 库；整个过程中，VLM 权重始终不变。

图｜VisualClaw 能够在真实场景中高效编码流式视频，并通过持续演化的 memory 库和 skill 库生成个性化的回答与动作。

在视频层面，VisualClaw 用一个级联编码门在设备端实时筛选视频，而不是把所有画面都传到云端。它先用 dHash 去掉重复帧，再提取颜色、亮度、边缘和纹理等轻量特征，并把每一帧分成三类：MAJOR 会作为关键帧上传到云端，MINOR 只用来更新参考帧，SKIP 则直接跳过。由于不需要等待后续画面，它可以直接处理实时视频流。

在提示词层面，VisualClaw 将 skill 分为冷热两层。每次回答问题时，热层保留少数相关 skill 的完整内容，冷层只保留其余 skill 的名称和简介。这样一来，即使 skill 库继续扩充，单次调用的提示词开销也不会同步上升。

在进化层面，VisualClaw 会根据失败案例更新 skill 库。高置信度的正确样例会存入 memory，失败积累到一定数量后，离线大模型再结合失败和相关 memory 生成新的 skill。与此同时，它还会持续去重和剪枝，避免 skill 库不断膨胀。

图｜VisualClaw 的整体流程。

此外，现有静态 video-QA benchmark 很难评估模型在真实工作区中的操作能力。VisualClawArena 则将视频、文档、动态更新和可执行检查整合进同一 workspace，要求 Agent 不只回答问题，还要完成读写文件、处理冲突等任务，并交付可自动评分的结果。

图｜VisualClawArena 的数据筛选流程。

VisualClawArena 基于三个现有数据源构建，共包含 200 个场景和 3106 个步骤。研究通过多轮校验与筛选，尽可能保留那些确实需要视频证据的任务，并保证场景完整可用。评测时，它也不只看答案，而是看 Agent 是否完成了整个 workspace，因此更接近真实使用场景。

图｜VisualClawArena 的完整示例。

在静态 video-QA 基准上，研究团队分别测试了 Gemini 3 Flash 和 GPT-5.2 在 EgoSchema、EgoPlan-Bench、Video-MME long 和 NextQA 四个任务上的表现。整体来看，完整进化方案在多数设置下优于基线，其中 Guide 最稳定，平均提升 3.85%。以 EgoSchema 为例，Gemini 3 Flash 从 52.60% 提升到 68.40%。这说明 VisualClaw 的提升不只来自帧筛选，也来自 skill 和 memory 的持续更新。

图｜Gemini 3 Flash 和 GPT-5.2 在 4 个基准测试上的结果。

在更接近真实使用场景的 VisualClawArena 上，表现最好的完整进化方案则是 Cat.。其中，Codex 后端的 VisualClaw 在 macro accuracy 上达到 54.27%，比无进化基线高出 2.92 个百分点；Claude Code 后端达到 52.16%，提高 3.16 个百分点。这个结果也说明，进入多步 Agent 工作流后，直接保留原始 memory 中的具体线索，可能比先把它概括成通用 skill 更有效。

图｜VisualClawArena 结果。

在成本上，VisualClaw 也体现出明显优势。如果看四个静态 video-QA 基准的总 API 开销，VisualClaw 也能把 full-frame 1 fps 方案的花费从 563.31 美元压到 10.51 美元。在持续在线场景中，对于 1 小时、1 fps 的视频流，级联机制还可以将原本约 3600 帧的上传需求压缩到约 5 到 20 次上传请求。

图｜Gemini 3 Flash 在各基准上的 API 成本对比。

在 VisualClawArena 上，Claude Code 的 Cascade-8 配置也相比 Uniform-8 总成本下降了 9.5%。

图｜VisualClawArena 上的 agent / evolver 调用次数及可获得的成本统计。

案例分析也支持这一点。在论文展示的两个例子里，级联机制都只保留了极少量关键帧，而真正带来答案修正的，是后续的 skill 进化和 memory 检索。

图｜VisualClaw 的案例分析。

不过，研究团队也提醒，VisualClaw 的效果并不稳定地适用于所有模型和任务：有些 skill 更依赖特定模型，FullEvo 也主要在中高难度任务上更有效。级联选帧同样并非始终优于均匀采样，在一些长视频上，Uniform-8 仍可能是更合适的选择。

同时，研究团队还提到两类部署风险。第一类来自自动评分：如果评分标准本身有偏差，这种偏差就可能在多轮进化中不断被写进 skill 库，因此大规模部署时仍需要定期人工检查。第二类来自模型差异：同一套 skill 库对一种 VLM 可能有帮助，换到另一种 VLM 上却可能变成负担。未来，更稳妥的做法不是一套配置通用，而是针对不同模型分别调整 skill 库、冷热注入方式和 memory 融合策略。

研究团队也承认，这套方法还需要更长时间和更大范围的验证。现有的 skill 库去重与剪枝机制，在主实验中更像是一种长期保障。面对更长的演化过程是否依然有效，还有待观察；部分评测和成本统计的覆盖范围也还有限。此外，VisualClaw 在提高 AI 眼镜等持续视觉系统可行性的同时，也可能降低持续视觉监控的部署门槛。未来，平台级访问控制和相关政策约束仍需进一步加强。

更多技术细节，详见原论文。

作者：夏千斯

如需转载或投稿，请直接在本文章评论区内留言

宙世代

一起剪

相关标签