量子位 前天
让模型“看视频写网页”,GPT-5仅得36.35分!上海AI Lab联合发布首个video2code基准
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

多模态大模型在根据静态截图生成网页代码(Image-to-Code)方面已展现出不俗能力,这让许多人对 AI 自动化前端开发充满期待。

然而,一个网页的真正价值远不止于其静态布局。用户的点击、筛选、表单提交,乃至游戏中的每一步操作,都构成了其核心的交互功能。这些动态、有状态的交互逻辑,恰恰是传统静态评测无法触及的盲区。

为了填补这一关键空白,上海人工智能实验室联合浙江大学等机构的研究者,提出了IWR-Bench——一个旨在更真实地评估 LVLM 交互式网页重建能力的评测基准。

IWR-Bench 的核心转变在于,它不再提供静态截图,而是要求模型观看一段记录了完整用户操作流程的视频,并结合网页所需的全部静态资源(如图片、图标、子视频等),去理解并复现整个页面的动态行为。任务的复杂性跨度很大,从简单的浏览功能,到需要逆向工程游戏规则的 2048、订机票等应用。

这项任务的难度远超预期。在对 28 个主流模型的全面测试中,即便是表现最好的模型 GPT-5,其综合得分也仅有 36.35 分。这一结果清晰地指出了当前模型的核心短板,IWR-Bench 不仅为领域提供了一个更具挑战性的新目标,也为未来的研究指出了一个新的方向。

核心亮点

首个视频输入的交互网页重建评测:从 "image-to-code" 迈向 "video-to-code",对网页事件驱动逻辑的生成提出刚性要求

真实场景、完整资源:113 个网站任务、1001 次交互动作;提供全部静态资源并匿名化命名,逼近真实开发

自动化 Agent-as-a-Judge:用编程代理复现动作轨迹,双重评分同时评估功能正确性(IFS)与视觉保真度(VFS)

28 个 LVLM 系统测评:最佳模型总分 36.35%,IFS 仅 24.39%、VFS 为 64.25%;通用多模态模型显著优于 " 视频专长 " 模型

10 个代表性模型在 IWR-Bench 任务上的评测总览覆盖全面的真实世界网页任务

现有的网页代码生成基准(如 Design2Code、WebSight)主要聚焦于静态截图转代码(image2code),而 IWR-Bench 则专注于动态视频转可交互网页代码 ( video2code ) :

传统任务: 给 AI 一张网页截图 → 生成 HTML/CSS 代码

IWR 任务: 给 AI 一段用户操作视频 + 网页静态资源 → 生成包含完整交互逻辑的代码

值得一提的是,每个任务都提供了完整的静态资源(图片、图标、视频等),并且所有文件名都经过匿名化处理(如 logo.png → asset_001.png),迫使模型必须依靠视觉匹配而非语义推理。静态资源的引入,也为直接基于渲染结果而非 HTML 代码进行评测提供了关键帮助。

下图为 IWR-Bench 任务和评测总览,模型输入包括 ( a ) 用户交互视频, ( b ) 爬取的静态资源的缩略图与文件路径,要求模型输出 html 代码。评测时,通过 agent 在浏览器上基于 ( c ) 标注的操作轨迹进行操作,以实现基于检查点的自动化评分。

IWR 任务对模型的三大核心挑战包括:

多模态理解:从视频帧精准捕捉布局、文本与组件状态

多模态推理:在时间序列中推断交互逻辑与因果关系,并将视频元素与静态资源可靠匹配与绑定

高级代码生成:将推断出的状态机与事件逻辑实现为可运行的前端代码

IWR 任务的规模和覆盖范围如下:

113 个来自真实网站的任务,分辨率覆盖桌面与移动端(19 种,移动占 10.62%)

共 1001 个交互动作,平均每任务 8.9 步;其中 620 个视觉检查点、403 个逻辑断言

复杂任务包含 2048、扫雷等完整游戏逻辑与 GUI 重建

评测框架和指标

IWR-Bench 采用了一套严格的自动化评测协议,通过编程代理(基于 browser-use 库)来模拟真实用户的网页操作。

评测流程

操作执行:代理按照预定义的动作序列操作生成的网页

功能验证:检查每个操作是否能正确执行,以及逻辑断言是否满足

视觉对比:在关键检查点截图,与参考页面进行多维度对比

双重评分体系

交互功能分数(IFS):衡量功能正确性

计算成功完成的操作占总操作数的比例 , 操作失败包括浏览器执行失败、逻辑断言失败

SOTA 模型 GPT-5 的 IFS 仅为 24.39%

视觉保真度分数(VFS):衡量视觉还原度 - 结合低级特征(OCR 文本相似度、DINO 结构相似度)

融合高级评估(由 Gemini-2.5-Pro 进行整体评判)

SOTA 模型 GPT-5 的 VFS 为 64.25%

评测结果

IWR-Bench 在 28 个模型上的评测结果

研究人员从中得到了三个关键发现。

首先,功能实现是最大瓶颈

所有模型的 VFS 都显著高于 IFS,这揭示了一个核心问题:

模型能够较好地复现静态视觉效果,但在生成事件驱动逻辑方面严重不足。

例如,GPT-5 能够达到 64.25% 的视觉保真度,但功能正确性仅为 24.39% ——这意味着即使页面 " 看起来对 ",实际操作时有 75% 以上的功能无法正常工作。

其次,thinking 版本带来部分提升

"thinking" 版本模型普遍表现更好:

Claude-Sonnet-4 ( thinking ) vs. 普通版:34.62 vs. 34.00

Claude-Opus-4 ( thinking ) vs. 普通版:34.13 vs. 33.33

Gemini-2.5-Pro ( thinking ) vs. 普通版:30.36 vs. 30.31

但提升幅度有限,说明基础模型能力仍是决定性因素。

另外,现在的专有视频理解模型效果不如通用多模态模型

专门针对视频理解训练的模型(如 VideoLLaMA3、InternVideo)表现垫底,而通用的多模态大模型表现更优。这表明,该任务与传统的视频理解任务具有显著的差异性。

IWR-Bench 的推出,标志着 AI 从 " 看懂静态网页 " 到 " 理解动态交互 " 的关键一步。36 分的成绩告诉我们:这条路还很长。这不仅是对 AI 多模态能力的一次全面体检,更是为多模态能力涌现指明了下一阶段的攻坚方向。

IWR-Bench 由上海人工智能实验室联合浙大、2077AI、港中文、斯坦福等单位共同完成,第一作者陈杨是浙江大学硕士生,通讯作者为上海人工智能实验室沈宇帆、石博天。

论文链接:

https://arxiv.org/abs/2509.24709

代码地址:

https://github.com/L-O-I/IWR-Bench

数据地址:

https://huggingface.co/datasets/IWR-Bench/IWR-Bench

项目主页:

https://l-o-i.github.io/IWR-Bench/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 浙江大学 人工智能 上海 自动化
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论