雷锋网 昨天
CVPR 2026完美落幕!D4RT封神最佳论文、牛津VGG两连冠,中国本科生泰坦显卡逆袭引爆全网
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

CVPR 2026 主会议于 6 月 7 日落下帷幕,三大重磅信号同频共振:奖项端,Google DeepMind 的 D4RT 摘得最佳论文奖,Oxford VGG 实现 CVPR 最佳论文「背靠背」两连冠,何恺明的 ResNet/YOLO 同获 Longuet-Higgins 时间检验奖,微软 × 清华的 TRELLIS.2 斩获最佳学生论文奖;数据基建端,号称「视觉物理 ImageNet 时刻」的 PhysInOne 以 2M 视频、150K+3D 场景、71 种物理现象震撼发布,VLA 论文 5 倍增长、世界模型 3 倍增长已成共识;人才端,2 名本科生半年揽 5 个顶会、大三学生凭老旧泰坦 GPU 拿下最佳学生论文提名,中国本科生顶会现象成为闭幕日全网热议话题。以下三大热门议题,雷峰网带你一口气看完 CVPR 2026 闭幕日的所有精华。

热门议题一:五大奖项全揭晓—— D4RT 封神、牛津 VGG 两连冠、何恺明再获至高荣誉

闭幕式上,CVPR 2026 五大奖项尘埃落定。Google DeepMind 的 D4RT 以 4D 动态场景重建摘得最佳论文奖,标志着 Oxford VGG 连续两年站上 CVPR 最高领奖台(VGGT'25 + D4RT'26);何恺明团队的 ResNet/YOLO 同获 Longuet-Higgins 时间检验奖,再次印证其在计算机视觉史上的奠基地位;微软 × 清华的 TRELLIS.2 以 17 秒生成 PBR 资产的惊艳表现斩获最佳学生论文奖;SAM 3D 获最佳论文提名,NitroGen(NVIDIA)获最佳论文荣誉提名。这五大奖项不仅是论文本身的胜利,更折射出计算机视觉从 2D 到 4D、从感知到生成的范式迁移主线。

D4RT — CVPR 2026 Best Paper Award(Google DeepMind / UCL / Oxford · 闭幕式揭晓)

[ 摘要 ] CVPR 2026 最佳论文奖花落 Google DeepMind、UCL 和 Oxford 联合团队的 D4RT。该论文提出了一套高效的 4D 动态场景重建方法,在重建质量与计算效率之间取得了突破性平衡。这是 Oxford VGG 实验室连续两年斩获 CVPR 最佳论文—— 2025 年的 VGGT 与 2026 年的 D4RT 共同写就了「背靠背」两连冠的传奇,也标志着 4D 重建已从研究前沿正式进入主流视野。

ResNet & YOLO — Longuet-Higgins 时间检验奖(何恺明团队)

[ 摘要 ] 何恺明团队的 ResNet 与 YOLO 检测框架同获 CVPR 2026 Longuet-Higgins 时间检验奖,表彰其对计算机视觉研究与实践长达十年以上的深远影响。从 2015 年的 ResNet 到 2016 年的 YOLO,这两项工作经历了大规模工业验证后,其奠基性贡献获最高级别学术奖项认可,再次印证何恺明「一作即封神」的传奇学术轨迹。

TRELLIS.2 — 最佳学生论文奖(微软 × 清华 · 17 秒生成 PBR 资产)

[ 摘要 ] 微软研究院与清华大学联合提出的 TRELLIS.2 斩获 CVPR 2026 最佳学生论文奖。TRELLIS.2 作为原生 3D 大模型,能在 17 秒内生成超高精度的 PBR(物理渲染)资产,将 3D 资产生成从「天级」缩短至「秒级」,被视为 3D 生成领域的新标杆。该论文是产学研结合的典范之作。

SAM 3D(最佳论文提名)& NitroGen(NVIDIA · 最佳论文荣誉提名)

[ 摘要 ] SAM 3D 提出从单张图像进行 3D 重建的生成模型,获 CVPR 2026 最佳论文提名(Best Paper Finalist);NVIDIA 的 NitroGen 则获得最佳论文荣誉提名(Best Paper Honorable Mention),延续了 NVIDIA 在 CVPR 的强势表现。两篇论文分属 3D 重建与图像生成方向,代表了当前计算机视觉最具活力的两个子领域。

热门议题二:PhysInOne 发布——「视觉物理 ImageNet 时刻」开启,世界模型与具身智能论文暴涨

如果说 D4RT 代表了过去,那么 PhysInOne 的发布则指向 CV 视觉的未来。这个包含 2M 视频、150K+ 动态 3D 场景、71 种物理现象(力学、光学、流体、磁学)的超大型数据集,被学界称为「视觉物理的 ImageNet 时刻」——其意义不在于一项技术突破,而在于为世界模型和具身 AI 研究奠定了此前缺失的数据基础设施。与此同时,CVPR 2026 数据清晰显示 VLA 论文数量增长了 5 倍、世界模型论文数量增长了 3 倍,前 AlphaFold2 核心成员 Simon Kohl 以一场被评价为「全场最佳」的 Keynote,打通了从蛋白质设计到生成式 AI 的跨领域链路。具身智能正在从学术春天走向真正的产业夏天。

PhysInOne: Physics-Grounded World Models & Embodied AI Dataset(「视觉物理 ImageNet 时刻」)

[ 摘要 ] PhysInOne 是一个面向物理世界模型和具身 AI 的大规模数据集,包含 200 万个视频、150K+ 动态 3D 场景,覆盖 71 种物理现象(力学、光学、流体、磁学),并提供完整的 2D/3D/4D/ 文本标注。其发布被视为世界模型训练的分水岭事件——在此之前,研究者缺少一个大规模、多元化、带物理标注的数据集作为世界模型的学习基础。PhysInOne 有望成为具身智能时代的数据标准,推动机器人从「看懂世界」到「理解物理」的质变。

[ 链接 ] https://x.com/boyang_vLAR/status/2063676557223514490

Simon Kohl(前 AlphaFold2 / Latent Labs CEO)Keynote

[ 摘要 ] 前 AlphaFold2 核心成员、现任 Latent Labs CEO Simon Kohl 发表了被多位参会者评价为「全场最精彩 Keynote」的演讲。他以「预测器赋能生成模型」为核心洞见:在 AlphaFold2 中做的是预测器(Predictor),而在 Latent Labs 则转向生成器(Generator),AI 设计的抗体已在十人人类 panel 中展示低免疫激活。这场横跨 CV、计算生物学与药物设计的演讲,让在场研究者看到了视觉模型与生命科学深度交汇的巨大潜力。

[ 链接 ] https://x.com/CVPR/status/2063001229672743180?s=20

MAPS: VLA 鲁棒微调框架 + VQ-VA World:具身智能方法论的集中爆发

[ 摘要 ] CVPR 2026 具身智能方向以「VLA 论文 5 倍增长、世界模型 3 倍增长」的数据坐实了赛道热度。MAPS 提出了 VLA 模型鲁棒微调框架,核心发现是 VLA 的不同组件需要不同级别的保留与适配策略;VQ-VA World 等世界模型相关论文同期亮相。这标志着具身智能从早期的单点突破阶段,正式进入系统性方法论构建阶段。

热门议题三:中国本科生顶会现象引爆网络—— 2 人半年 5 个顶会、大三学生老泰坦逆袭、美团 560B 开源模型齐登 CVPR

CVPR 2026 闭幕日,最出圈的讨论不是最佳论文花落谁家,而是一群中国本科生的惊艳表现。2 名本科生半年内在 CVPR/ICCV/ECCV 等顶级会议上狂揽 5 篇论文;一位大三学生仅凭一块老旧泰坦 GPU 完成的研究,成功获得 CVPR 2026 最佳学生论文提名——这条消息以极快的速度在机器之心、新智元、量子位等头部科技媒体间发酵,成为闭幕日全网最热话题。与此同时,中国科技巨头在 CVPR 现场同样重量级:美团正式开源 560B 参数的 LongCat MoE 大模型,字节跳动的 HiFi-Inpaint 图像修复新范式高调亮相,微软 × 清华的 TRELLIS.2 更是让产学研合作成果站上国际舞台。中国力量,正在以不可忽视的姿态成为 CVPR 的主角。

大三本科生凭老泰坦 GPU 斩获 CVPR 最佳学生论文提名

[ 摘要 ] 一名大三本科生使用一块老旧泰坦(Titan)GPU 完成的研究,脱颖而出获得 CVPR 2026 最佳学生论文提名。该故事经量子位微信公众号首发后迅速引爆全网,机器之心、新智元等头部科技媒体陆续跟进。在算力军备竞赛愈演愈烈的今天,这一「低配逆袭」叙事击中了学术界的集体共鸣点,也让更多资源受限的高校学生看到了冲顶顶会的可能。

2 名本科生半年 5 个顶会——中国青年学者全民出海

[ 摘要 ] 两名本科在读学生,仅用半年时间便在 CVPR、ICCV、ECCV 等五大顶级会议上发表了 5 篇论文,并在 CVPR 2026 上获得最佳学生论文提名。这一现象经新智元、机器之心等多家媒体报道后引发热议,折射出中国计算机视觉教育——尤其是本科阶段拔尖人才培养体系——的跨越式进步。

LongCat:美团开源 560B MoE 大模型(CVPR 现场展出)

[ 摘要 ] 美团在 CVPR 2026 现场正式发布并开源 LongCat 模型家族:560B 参数 Mixture-of-Experts 架构,每次推理仅需激活约 27B 参数,在推理速度与模型能力之间取得了出色平衡。这是中国互联网巨头在 CVPR 舞台上最大规模的模型开源行动之一,标志着美团 AI 战略从应用层向基础模型层的纵深延伸。

[ 链接 ] https://x.com/VincentLogic/status/2063877403739558179?s=20

HiFi-Inpaint:字节跳动图像修复新范式

[ 摘要 ] 字节跳动在 CVPR 2026 上提出 HiFi-Inpaint,以全新思路解决图像修复(Image Inpainting)任务中的高频细节恢复难题。该论文经 CVer 公众号深度解读后获得广泛传播,成为本届 CVPR 中国科技企业赛道中平面视觉方向最受关注的成果之一。

[ CVPR 2026 完美落幕 ] 视觉物理时代,才刚刚开始

从 D4RT 的 4D 重建到 PhysInOne 的物理数据集,从中国本科生的泰坦逆袭到 LongCat 560B 的开源浪潮。

CVPR 2026 告诉我们:计算机视觉正在从「理解图像」的时代,

大踏步迈向「理解世界」的时代——而中国,已站上这场变革的中心舞台。

>> 点击关注 CVPR 专题专区,获取年度综述、深度论文解读与行业趋势全盘点

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

本科生 cvpr 清华 计算机视觉 google
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论