CVPR 是一个 " 冷门学术会议 " 的时代一去不复返了。
2024 年,因为大模型以及 Sora 等的横空出世,全球计算机视觉届三大顶会之一的 CVPR 涌入了破纪录的 1.2 万人(可以回顾一下我们去年的现场报道)。而 2025 年,这种火热继续,虽然关注度没有上一届那么夸张,但我们今年在现场参会的观感,以及与诸多研究者交流的感受是:
它从一个学术交流、计算机科学家聚会、新的研究 idea 亮相与碰撞的会议,开始转为了工业界与学术界互动、AI公司抢夺注意力和人才、更偏向实际应用及工程化的成果集中展示的 AI 行业大聚会。
今年的 CVPR 在美国田纳西州纳什维尔举办。6 月 11 日开幕,6 月 13 日最佳论文等官方的奖项颁奖,之后多日是各种 poster 展示和各类交流论坛和线下聚会。
今年 CVPR 上重要和有意思的事情也不少:
最佳论文给到了 VGGT,这是一个最近少有的被很多人评价为 " 实至名归 " 的成果。
3D 似乎正在来到彻底爆发的前夜,成为高质量论文和 Demo 出现的重要方向。
" 世界模型 " 的名字越来越多的出现在各种论文、poster session 和 workshop 里。
偏向应用和工程的,离产业界更近的研究肉眼可见的多了起来,大厂们逐渐抢夺走 CVPR 上更多的注意力。
去年第一次没有论文被选中的 ResNet 架构提出者、AI 明星研究员何恺明,回归大会,除了论文和分享讲座,他也是最佳论文委员会成员之一。
而诸多年轻研究员继续在 CVPR 上完成着自己学术追星的计划,比如与何恺明的各种合影充满了社交媒体 …
以下是我们从现场发回的一手直击。
最佳论文再次是华人一作,3D 和世界模型大热
许多参会者是第一次来纳什维尔。当你走出这座美国中部城市的机场,你立刻就能感觉到,身边背着电脑包、拖着行李箱、戴着大会证件的人特别多,市区的酒店几乎全满,早上打车还得排队。人山人海,明显不是纳什维尔平常的节奏。
6 月 13 日,CVPR 颁发最佳论文奖,人们涌入会场,会场大厅里是各种肤色、各种语言的交汇。
根据 CVPR 官方的介绍,今年共有 14 篇论文入围最佳论文,最终 5 篇论文摘得奖项,包括 1 篇最佳论文、4 篇最佳论文荣誉提名。另外还有学生最佳论文奖。
最终获得最佳论文的,是 VGGT 的工作—— VGGT:Visual Geometry Grounded Transformer。
这是一个可以实现从多个图像数据里推出关键的 3D 属性的技术,比如从一些二维的图片,来得到相机参数、点云、深度图等用于 3D 重建的关键信息。在实现上,它用一次 Transformer 的典型的前馈输入和神经网络的处理操作,可以把 3D 的数据提取推导全部做完,也就是行业最热议的 " 端到端 " 的概念,而且据论文展示,它的速度也比传统的方法快了 10 多倍,可以在几秒内就完成一次复杂的任务。
它简洁而效果很好,而且,这个研究是典型的对于工业界价值极大的节点性的论文——它证明了一个方向,然后降低了一个行业应用爆发的门槛,同时,给那些有充分计算资源的大厂指明了一条充满诱惑的道路。
去年的 CVPR 最佳论文之一,第一作者是华人研究员。而今年这篇最佳论文的第一作者也是华人研究员。
王建元是牛津大学视觉几何组(VGG)与 Meta AI 的联合培养博士生,长期研究 3D 重建方法,聚焦于端到端几何推理框架的创新。之前,他的许多工作就被行业关注,包括去年 CVPR 的 Highlight 论文,VGGSfM(一个能从大量图像中自动重建三维场景结构和相机位姿的系统),以及 PoseDiffusion(将相机位姿估计视为一个扩散 Diffusion 过程,通过学习多视角下条件分布的扩散模型,逐步优化相机参数)。
图源:王建元的 X
根据会方统计,今年大会共收到 4 万多名作者提交的 13008 份论文,再破纪录。相比去年投稿数增长 13%,2872 篇论文被接收,最终接收率约 22.1%。
有意思的是,在一个研究竞争激烈的领域,VGGT 的获奖被不少人形容是实至名归,毫无悬念。" 它开创了新的阶段,代替了此前的主流方法。有点类似当初 RestNet 的意义。" 一名研究员说。
CVPR 就像是时尚行业每年定义当年流行元素的大会,它的风潮也总在变化。去年,结合语言和视觉的论文增加了两倍,扩散模型和生成模型论文增加了三倍。那些有 OpenAI Sora 作者参加的 workshop,排队排出了明星见面会的效果。
今年 Sora 早已被人忘掉。但生成式 AI 继续火热。官方数据显示,今年接收数量最多的依然是图像与视频生成领域。
不过,可能更能体现风向标变化的是接收率。今年接收率最高的是 3D 相关的研究。
另外,在我们参加的 workshop,以及和各路人马的交流中,明显感受到 " 世界模型 " 这个词也出现的更多了。
我们在现场和几位 researcher 的交流,也提到,今年生成式 AI、3D 视觉、多模态相关的论文和 talk 热度最高,世界模型和 3D Gaussian Splatting 反复被提起,不少 session 满场。
最佳论文候选中,AI 大佬 Yann LeCun 参与的 Navigation World Models,提出了一个可控的视频生成模型,用于环境导航的世界模型。
在 6 月 11 日备受关注的 CVPR 自动驾驶的 workshop 里,世界模型方向也得到很多讨论,其中作为被邀请的唯一汽车厂商,小鹏的相关研究也展示了一个从真实驾驶数据中训练出的高保真世界模型。
3D 正在快速进入实际场景,世界模型也得到了类似的关注,似乎真的都开始走向应用。
" 很多 idea 都开始面向产业应用 ",大厂存在感继续增高
CVPR 上的 workshop 琳琅满目。而其中越来越多的讨论里,会有更多工业界的人参与其中。会场里,像 Meta、NVIDIA、Google、Apple 等企业 logo 遍布,很多 researcher 也挂着这些公司工牌,企业研究人员的占比明显上升。不少技术 talk 和 panel 讨论直接围绕 " 从论文到产品 " 的话题,工业界和学术界的界限在进一步模糊。
中国公司也十分抢眼。腾讯的企鹅长鹅飘在半空中,字节、阿里都有各自的活动,宇树的展区也在准备接受 " 围堵 "。我们趁着 " 堵车 " 前去拍了一些照片。
今年 CVPR 的现场氛围非常快节奏,走廊里总是有人飞快穿梭、低头看会议手册查下一个 workshop 在哪儿。很多人在走廊边的椅子上抱着电脑工作,咖啡区永远排着长队。Poster 区尤其热闹,几乎每一张海报前都围着一圈人。
研究者们一边讲解,一边被各种提问 " 这个能不能商用 "," 模型开源了吗 "。
务实的很。
作为今年很重要研究方向,3D 相关的论文和 demo 很多也是工业界关注的焦点。像 3D Gaussian Splatting,很多 demo 现场直接展示出高质量、实时的 3D 重建效果,吸引了不少人围观。生成式 AI 依然是焦点,不少论文探索如何结合 3D、物理世界信息提升生成效果,技术演示上也更强调实用性和效率。今年整体感觉是 demo 和应用性变强了,很多成果已经能直接服务工业界需求。
工业界和学术界进一步融合,是今年 CVPR 现场很明显的感受。从录用论文来看,偏应用、偏工程、关注实际落地效果的研究变多了,很多论文直接针对工业界需求展开,行业关注度很高。
产业界和学术界共同设置的 workshop 门口经常排队,比如一场 " 基于基础模型的开放词汇 3D 场景理解 " 的 workshop,座位要提前 20 分钟去才有位置,人多到会议室后面的空余的地上都坐满了人。
有去年也参会的研究员对我们说,今年产业界参与感更强,企业研究和学术交流结合更紧密,CVPR" 出圈 " 的趋势更明显了。
顶流何恺明们," 应该也被合照合烦了吧 "
在会场到处穿梭,就可能遇到一些学术明星。CVPR 也是一个学术追星的 " 重灾区 "。
其中,何恺明一直是 CVPR 的顶流。他是 ResNet 这个计算机视觉领域的流行架构的提出者,相关论文的引用数量突破 20 万次,曾经多次获得 CVPR 最佳论文奖。
因此,当去年 CVPR 成为历史上最火爆的一次,却同时也是第一次没有何恺明参与的论文入选的一次 CVPR 时,引发了广泛的讨论。也成了当时 CVPR 出圈的讨论话题之一。
而今年,何恺明 " 回归 ",他担任了最佳论文评委委员之一,在颁奖前参与了 workshop,做了一个演讲。
这也让何恺明显的 " 无处不在 ",在小红书上,有很多与何恺明合影的研究员,以及在各种角落偶遇何恺明的人们。不过对于何恺明的这场讲座,似乎很少有人在分享讲座本身的内容。
" 他应该也被合影合烦了吧。" 一名研究员说。
其实,除了何恺明,华人研究员在 CVPR 的存在感也很强,而且今年感觉越来越耀眼。
最佳论文里除了一作,另一位作者 Minghao Chen 来自牛津大学,同时在 Meta GenAI 实习。最佳论文提名里,另一个很棒的研究 MegaSam,第一作者 Zhengqi Li,正是去年 CVPR 最佳论文之一的第一作者。在最佳学生论文的荣誉提名里,浙大、北大等高校也在列。
另外,华人年轻 AI 科学家谢赛宁和苏昊也得到了青年学者奖。
贾扬清在 2014 年参与的论文 Going Deeper with Convolutions(由 Google 的研究组提出的一种高效的卷积神经网络模型,在 ImageNet 分类任务中取得了优异成绩,核心在于采用了 Inception 模块来提高网络性能。所以经常被人称为 GoogleNet),得到了时间检验奖。
知名的 AI 学者、Idea 研究院创院理事长沈向洋也在当天开幕上做了主旨演讲。
很多研究者跟我们交流中提到,今年不只是中国的研究者,来自中国企业的论文质量也很突出,讨论度很高。产业界的存在感也很强。整体看,中国研究者无论在学术圈还是产业圈,都在 CVPR 上有越来越重要的影响力。
当然,这样影响力,与今天诡异的大环境相碰撞,也会有很多 " 时代注脚 " 般的画面出现。比如在 poster 区路过一个华为相关研究部门的展示,发现它的 poster 上,研究机构名字居然是后来用马克笔潦草地手写上去的。
作为一个此刻最火爆的行业,在其中的研究员们肯定不愿错过任何可能的职业机会。大家都很积极在 connect,会场外附近的 café、餐厅里,随处可见脖子上挂着参会证的人,三五成群讨论项目、交换名片,微信、LinkedIn 加好友几乎成了标配。今年 CVPR 更像是一场技术和产业界紧密结合的大集市,信息流动速度很快,交流氛围也比想象中还要活跃很多。
穿梭在这些 poster session 和 workshop 的会议室,走廊里永远有人在打电话、聊项目、或者低头敲键盘。很多人干脆抱着电脑坐在走廊边的椅子上工作,会议室的门一开一合,大家行色匆匆地赶场子,生怕错过什么 " 爆款 " 讲座。
站在 CVPR 的会场,像是被一股看不见的力量拉到了某个舞台的中央。看着这么多人彼此争分夺秒,多少有点兴奋,也有点跟不上节奏。而这已经是常态,每个人都在 FOMO 中继续前进着。
登录后才可以发布评论哦
打开小程序可以发布评论哦