CVPR 2026完美落幕！D4RT封神最佳论文、牛津VGG两连冠，中国本科生泰坦显卡逆袭引爆全网

CVPR 2026 主会议于 6 月 7 日落下帷幕，三大重磅信号同频共振：奖项端，Google DeepMind 的 D4RT 摘得最佳论文奖，Oxford VGG 实现 CVPR 最佳论文「背靠背」两连冠，何恺明的 ResNet/YOLO 同获 Longuet-Higgins 时间检验奖，微软 × 清华的 TRELLIS.2 斩获最佳学生论文奖；数据基建端，号称「视觉物理 ImageNet 时刻」的 PhysInOne 以 2M 视频、150K+3D 场景、71 种物理现象震撼发布，VLA 论文 5 倍增长、世界模型 3 倍增长已成共识；人才端，2 名本科生半年揽 5 个顶会、大三学生凭老旧泰坦 GPU 拿下最佳学生论文提名，中国本科生顶会现象成为闭幕日全网热议话题。以下三大热门议题，雷峰网带你一口气看完 CVPR 2026 闭幕日的所有精华。

热门议题一：五大奖项全揭晓—— D4RT 封神、牛津 VGG 两连冠、何恺明再获至高荣誉

闭幕式上，CVPR 2026 五大奖项尘埃落定。Google DeepMind 的 D4RT 以 4D 动态场景重建摘得最佳论文奖，标志着 Oxford VGG 连续两年站上 CVPR 最高领奖台（VGGT'25 + D4RT'26）；何恺明团队的 ResNet/YOLO 同获 Longuet-Higgins 时间检验奖，再次印证其在计算机视觉史上的奠基地位；微软 × 清华的 TRELLIS.2 以 17 秒生成 PBR 资产的惊艳表现斩获最佳学生论文奖；SAM 3D 获最佳论文提名，NitroGen（NVIDIA）获最佳论文荣誉提名。这五大奖项不仅是论文本身的胜利，更折射出计算机视觉从 2D 到 4D、从感知到生成的范式迁移主线。

D4RT — CVPR 2026 Best Paper Award（Google DeepMind / UCL / Oxford · 闭幕式揭晓）

[ 摘要 ] CVPR 2026 最佳论文奖花落 Google DeepMind、UCL 和 Oxford 联合团队的 D4RT。该论文提出了一套高效的 4D 动态场景重建方法，在重建质量与计算效率之间取得了突破性平衡。这是 Oxford VGG 实验室连续两年斩获 CVPR 最佳论文—— 2025 年的 VGGT 与 2026 年的 D4RT 共同写就了「背靠背」两连冠的传奇，也标志着 4D 重建已从研究前沿正式进入主流视野。

ResNet & YOLO — Longuet-Higgins 时间检验奖（何恺明团队）

[ 摘要 ] 何恺明团队的 ResNet 与 YOLO 检测框架同获 CVPR 2026 Longuet-Higgins 时间检验奖，表彰其对计算机视觉研究与实践长达十年以上的深远影响。从 2015 年的 ResNet 到 2016 年的 YOLO，这两项工作经历了大规模工业验证后，其奠基性贡献获最高级别学术奖项认可，再次印证何恺明「一作即封神」的传奇学术轨迹。

TRELLIS.2 — 最佳学生论文奖（微软 × 清华 · 17 秒生成 PBR 资产）

[ 摘要 ] 微软研究院与清华大学联合提出的 TRELLIS.2 斩获 CVPR 2026 最佳学生论文奖。TRELLIS.2 作为原生 3D 大模型，能在 17 秒内生成超高精度的 PBR（物理渲染）资产，将 3D 资产生成从「天级」缩短至「秒级」，被视为 3D 生成领域的新标杆。该论文是产学研结合的典范之作。

SAM 3D（最佳论文提名）& NitroGen（NVIDIA · 最佳论文荣誉提名）

[ 摘要 ] SAM 3D 提出从单张图像进行 3D 重建的生成模型，获 CVPR 2026 最佳论文提名（Best Paper Finalist）；NVIDIA 的 NitroGen 则获得最佳论文荣誉提名（Best Paper Honorable Mention），延续了 NVIDIA 在 CVPR 的强势表现。两篇论文分属 3D 重建与图像生成方向，代表了当前计算机视觉最具活力的两个子领域。

热门议题二：PhysInOne 发布——「视觉物理 ImageNet 时刻」开启，世界模型与具身智能论文暴涨

如果说 D4RT 代表了过去，那么 PhysInOne 的发布则指向 CV 视觉的未来。这个包含 2M 视频、150K+ 动态 3D 场景、71 种物理现象（力学、光学、流体、磁学）的超大型数据集，被学界称为「视觉物理的 ImageNet 时刻」——其意义不在于一项技术突破，而在于为世界模型和具身 AI 研究奠定了此前缺失的数据基础设施。与此同时，CVPR 2026 数据清晰显示 VLA 论文数量增长了 5 倍、世界模型论文数量增长了 3 倍，前 AlphaFold2 核心成员 Simon Kohl 以一场被评价为「全场最佳」的 Keynote，打通了从蛋白质设计到生成式 AI 的跨领域链路。具身智能正在从学术春天走向真正的产业夏天。

PhysInOne: Physics-Grounded World Models & Embodied AI Dataset（「视觉物理 ImageNet 时刻」）

[ 摘要 ] PhysInOne 是一个面向物理世界模型和具身 AI 的大规模数据集，包含 200 万个视频、150K+ 动态 3D 场景，覆盖 71 种物理现象（力学、光学、流体、磁学），并提供完整的 2D/3D/4D/ 文本标注。其发布被视为世界模型训练的分水岭事件——在此之前，研究者缺少一个大规模、多元化、带物理标注的数据集作为世界模型的学习基础。PhysInOne 有望成为具身智能时代的数据标准，推动机器人从「看懂世界」到「理解物理」的质变。

[ 链接 ] https://x.com/boyang_vLAR/status/2063676557223514490

Simon Kohl（前 AlphaFold2 / Latent Labs CEO）Keynote

[ 摘要 ] 前 AlphaFold2 核心成员、现任 Latent Labs CEO Simon Kohl 发表了被多位参会者评价为「全场最精彩 Keynote」的演讲。他以「预测器赋能生成模型」为核心洞见：在 AlphaFold2 中做的是预测器（Predictor），而在 Latent Labs 则转向生成器（Generator），AI 设计的抗体已在十人人类 panel 中展示低免疫激活。这场横跨 CV、计算生物学与药物设计的演讲，让在场研究者看到了视觉模型与生命科学深度交汇的巨大潜力。

[ 链接 ] https://x.com/CVPR/status/2063001229672743180?s=20

MAPS: VLA 鲁棒微调框架 + VQ-VA World：具身智能方法论的集中爆发

[ 摘要 ] CVPR 2026 具身智能方向以「VLA 论文 5 倍增长、世界模型 3 倍增长」的数据坐实了赛道热度。MAPS 提出了 VLA 模型鲁棒微调框架，核心发现是 VLA 的不同组件需要不同级别的保留与适配策略；VQ-VA World 等世界模型相关论文同期亮相。这标志着具身智能从早期的单点突破阶段，正式进入系统性方法论构建阶段。

热门议题三：中国本科生顶会现象引爆网络—— 2 人半年 5 个顶会、大三学生老泰坦逆袭、美团 560B 开源模型齐登 CVPR

CVPR 2026 闭幕日，最出圈的讨论不是最佳论文花落谁家，而是一群中国本科生的惊艳表现。2 名本科生半年内在 CVPR/ICCV/ECCV 等顶级会议上狂揽 5 篇论文；一位大三学生仅凭一块老旧泰坦 GPU 完成的研究，成功获得 CVPR 2026 最佳学生论文提名——这条消息以极快的速度在机器之心、新智元、量子位等头部科技媒体间发酵，成为闭幕日全网最热话题。与此同时，中国科技巨头在 CVPR 现场同样重量级：美团正式开源 560B 参数的 LongCat MoE 大模型，字节跳动的 HiFi-Inpaint 图像修复新范式高调亮相，微软 × 清华的 TRELLIS.2 更是让产学研合作成果站上国际舞台。中国力量，正在以不可忽视的姿态成为 CVPR 的主角。

大三本科生凭老泰坦 GPU 斩获 CVPR 最佳学生论文提名

[ 摘要 ] 一名大三本科生使用一块老旧泰坦（Titan）GPU 完成的研究，脱颖而出获得 CVPR 2026 最佳学生论文提名。该故事经量子位微信公众号首发后迅速引爆全网，机器之心、新智元等头部科技媒体陆续跟进。在算力军备竞赛愈演愈烈的今天，这一「低配逆袭」叙事击中了学术界的集体共鸣点，也让更多资源受限的高校学生看到了冲顶顶会的可能。

2 名本科生半年 5 个顶会——中国青年学者全民出海

[ 摘要 ] 两名本科在读学生，仅用半年时间便在 CVPR、ICCV、ECCV 等五大顶级会议上发表了 5 篇论文，并在 CVPR 2026 上获得最佳学生论文提名。这一现象经新智元、机器之心等多家媒体报道后引发热议，折射出中国计算机视觉教育——尤其是本科阶段拔尖人才培养体系——的跨越式进步。

LongCat：美团开源 560B MoE 大模型（CVPR 现场展出）

[ 摘要 ] 美团在 CVPR 2026 现场正式发布并开源 LongCat 模型家族：560B 参数 Mixture-of-Experts 架构，每次推理仅需激活约 27B 参数，在推理速度与模型能力之间取得了出色平衡。这是中国互联网巨头在 CVPR 舞台上最大规模的模型开源行动之一，标志着美团 AI 战略从应用层向基础模型层的纵深延伸。

[ 链接 ] https://x.com/VincentLogic/status/2063877403739558179?s=20

HiFi-Inpaint：字节跳动图像修复新范式

[ 摘要 ] 字节跳动在 CVPR 2026 上提出 HiFi-Inpaint，以全新思路解决图像修复（Image Inpainting）任务中的高频细节恢复难题。该论文经 CVer 公众号深度解读后获得广泛传播，成为本届 CVPR 中国科技企业赛道中平面视觉方向最受关注的成果之一。

[ CVPR 2026 完美落幕 ] 视觉物理时代，才刚刚开始

从 D4RT 的 4D 重建到 PhysInOne 的物理数据集，从中国本科生的泰坦逆袭到 LongCat 560B 的开源浪潮。

CVPR 2026 告诉我们：计算机视觉正在从「理解图像」的时代，

大踏步迈向「理解世界」的时代——而中国，已站上这场变革的中心舞台。

>> 点击关注 CVPR 专题专区，获取年度综述、深度论文解读与行业趋势全盘点

宙世代

一起剪

相关标签