2025 年 5 月,一款名为 BAGEL 的开源多模态模型在 Hugging Face 上登顶趋势榜第一。它在标准多模态理解测试中超过了当时热门的 Qwen2.5-VL,被社区视为 GPT-4o 和 Gemini 2.0 最强有力的开源替代方案。但最让发布团队意外的不是榜单排名,而是他们在训练中发现:随着交错多模态数据的规模持续扩大,模型自己涌现出了推理能力。这不是刻意设计的结果,而是庞大的数据库自发创造的惊喜。
这个项目背后的人叫范浩奇,谷歌学术总引用量超过四万次,与何恺明共同创作的 MoCo 论文改变了计算机视觉领域对自监督学习的认知。几乎在过去十年计算机视觉领域的每一次范式转移中都有它的参与:CNN 时代的 SlowFast,Transformer 时代的 MViT 和 MAE-ST,多模态时代的 BAGEL。
2026 年春节刚过,字节跳动 Seed 团队就把新成立的世界模型研究组交给了范浩奇。这一次,他的任务是:2026 年底之前,拿出一款性能对标 Google Genie 3 的世界模型。字节为此批下了数千万元的训练数据预算,是其他厂商的三到四倍,招聘开出的薪酬比市场平均水平高出百分之三十到五十。一个在 FAIR(Facebook AI Research)待了七年的研究员,回国不到两年,就被推到了一场全球竞争的最前沿。而敢于直面挑战,也正是范浩奇数十年来的工作准则。
图片来源:Linkedin
冷门方向的起点
2013 年,范浩奇远渡重洋,进入卡内基梅隆大学机器人研究所。这所学院在全球机器人学领域排名第一,以机器人控制、SLAM、机械设计等硬核方向著称。大多数毕业生去了波士顿动力和 NASA,或者自己创办机器人公司。范浩奇在这里选择的研究方向,对于当时的计算机视觉领域而言,属于冷门中的冷门:第一人称视觉活动识别。
后来与他长期合作的 Christoph Feichtenhofer 在一次访谈中提到:" 好的研究者不是追逐热点的人,而是找到重要问题并持续投入的人。"范浩奇在 CMU 的选择,也许是这句话最早的注脚。
范浩奇的导师是 Kris Kitani 教授,专注于第一视角视觉、行为预测和人机交互的研究。在 Kitani 的指导下,范浩奇参与了第一人称活动识别的研究,相关成果以第二作者身份发表于 CVPR 2016。硕士毕业后,在 CVPR 2018 上,他以第一作者发表了关于多模态推理的论文《Stacked Latent Attention for Multimodal Reasoning》。对于一个硕士毕业生来说,两篇 CVPR 已经是相当漂亮的成绩单。
在 CMU 的几年里,他收获了底层训练的思维能力:从系统层面理解问题,而不是从某个具体的 benchmark 出发。机器人研究所的思维方式让他学会不能只关心 " 这个视觉信号是什么 ",还必须注意 " 这个信号对应着怎样的物理世界、应该做出什么反应 "。这种看问题的角度,让他在后来转向多模态、世界模型等领域的时候,变成了一种独特的先发优势。
硕士毕业后,他没有继续读博,而是直接进入了工业界。当时正值深度学习浪潮席卷全球,Facebook AI Research 正处于最激进的扩张期,大批顶尖研究者从学术界涌入。范浩奇选择了 FAIR,一待就是七年。
图片来源:范浩奇的 GitHub
在 FAIR 站稳脚跟
2016 年,范浩奇加入 Facebook AI Research。那时的 FAIR 是全球 AI 研究员最向往的实验室之一—— Yann LeCun 坐镇,Ross Girshick 的 Faster R-CNN 统治着目标检测,何恺明刚刚用 ResNet 刷新了人们对深度学习深度的认知。
在 FAIR 的头几年,他并不是最引人注目的那个名字。但如果你翻阅 2016 到 2020 年间 FAIR 产出的视频理解方向论文,他的名字几乎无处不在。视频理解,也是范浩奇加入 FAIR 立稳脚跟的第一张牌。当时,何恺明和 Christoph Feichtenhofer 提出了一个想法:设计两条并行的网络路径,一条处理慢速的语义信息,一条捕捉快速的时间动态。这个想法后来被命名为 SlowFast。SlowFast 是 FAIR 视频理解团队共同完成的工作,范浩奇是核心作者之一,负责大规模实验验证与系统落地,与 Feichtenhofer、何恺明等人深度协作完成了这一工作。2019 年,SlowFast 被 ICCV 接收为 Oral 论文,成为视频理解领域的标杆工作之一。范浩奇通过这个项目证明了,他能把顶级的想法变成顶级的执行。
同期,他主导开发了 PySlowFast 代码库,这个开源工具后来成为全球视频理解研究者的标准工具箱,在 GitHub 上获得高星。2019 年 6 月,他带领团队在 AVA 视频活动检测挑战赛中获得第一名。同年 11 月,他开始在 ICCV 合办视觉识别教程,随后又在 CVPR 2020 和 ECCV 2020 延续了这一工作——在学术界,教程组织者通常是领域内公认的专家才被邀请担任的角色。在三十岁之前,范浩奇已经是视频理解领域被同行认可的重要人物。
但真正让他从实验室的年轻人中站出来的,是 2020 年的 MoCo。在 2019 年底,计算机视觉领域的主流观点仍然是:没有标签的视觉模型不可能达到监督学习的水平。但何恺明认为:可以用动量对比的方式构建一个动态字典,让模型从大量无标签数据中学习有用的视觉表征。在 MoCo 的研发过程中,范浩奇承担了核心的系统实现与实验验证工作,与何恺明紧密协作——这也是两人长期合作模式的起点。
2020 年 6 月,MoCo 被 CVPR 接收为 Oral 论文,获得最佳论文提名。消息公布后,整个自监督学习领域开始快速转向——研究者们突然意识到,无监督学习确实可以做到和监督学习接近甚至更好的效果。MoCo 的代码被开源,成为该领域使用最广泛的基准工作之一。范浩奇的谷歌学术在 2020 年迎来了第一次陡峭的攀升,年度引用从上一年的 224 跃升到 1120。
MoCo 之后,范浩奇与何恺明的合作就保持了长期且稳定的关系。2020 年的 MoCo v2,2022 年的 MAE-ST ……在 FAIR 的华人研究员群体中,范浩奇是少数几个能与何恺明持续合作多篇重磅论文的年轻人。他们的工作模式是:何恺明擅长提出概念性和方向性的想法,范浩奇擅长把这些想法快速落地为实验结果,并用实验反馈来修正和优化原始思路。这是一个高效的闭环。
在 FAIR 的七年里,范浩奇从何恺明和其他资深研究员身上学到的最重要的东西,可能不是具体的技术,而是一种判断力——什么样的问题是真正值得花时间去解决的,什么样的方向在长期来看更重要。这种判断力,后来成为他在每一次范式转移前都能提前转身的核心支撑。
在热点转移之前提前出发
" 如果你在一个研究领域中停留太久,你很可能会在下一个浪潮到来时丧失竞争力。与其被动地被技术演进淘汰,不如主动淘汰自己已有的存量优势。" 这似乎是范浩明一以贯之的判断逻辑。而这个逻辑在 2023 年得到了验证。
2020 年到 2022 年,计算机视觉领域经历了剧烈的范式转移。CNN 的统治地位开始松动,Transformer 从自然语言处理 " 跨界 " 到视觉领域,自监督学习从边缘走向主流,多模态模型开始展现出超越纯视觉模型的能力。很多在 CNN 时代积累了丰富经验的研究者在这波浪潮中措手不及,因为过去赖以成名的工具和框架突然变得不再适用。
范浩奇的应对方式是:在每一个拐点到来之前,主动换道。2021 年,他参与了多尺度视觉 Transformer 的研究。当时 Vision Transformer 刚刚出现,大多数研究者还在摸索如何将 Transformer 有效地应用到视觉任务上。而范浩奇已经开始针对视频数据的时空特性设计多尺度的 Transformer 结构,让模型能够同时捕捉精细的空间细节和长程的时间依赖。
2022 年,他与何恺明再次联手,将掩码自编码器从图像扩展到视频时空域,提出了 MAE-ST。何恺明的 MAE 在图像领域已经证明了掩码策略的有效性,但如何将其迁移到视频——这个具有时间维度的数据形态——是一个关键的技术难题。同一年,他还参与了 FLIP 的研究,开始涉足视觉与语言结合的方向。这个转向在当时看来并不显眼,但它标志着范浩奇的研究边界正在从 " 让机器看懂图像 " 拓展到 " 让机器同时理解图像和语言 "。这个转向为他日后进入多模态领域积累了方法论基础。
这三项工作放在一起看,可以捕捉到范浩奇身上一个不太被提及的特质:他愿意主动放弃已有的优势。MoCo 已经让他站在了自监督学习的前沿,如果愿意,他完全可以在那个方向上持续深耕,每年稳定产出,积累更高的引用量。但他没有这么做。他先后从自监督转向了 Transformer 架构,又从纯视觉转向了视觉 - 语言结合。每一次转向都意味着离开熟悉的领域,进入一个需要重新学习、重新证明自己的新战场。
图片来源:范浩奇的 Twitter(左一)
Hugging Face 第一的背后
2023 年末,范浩奇选择离开 Meta FAIR,加入字节跳动 Seed 团队。从外部看,这是一个放弃了很多确定性的决定。
彼时的他,参与的多项工作已经成为计算机视觉领域的标杆——自监督学习的 MoCo、视频理解的 SlowFast、时空掩码自编码器 MAE-ST。留下来的剧本清晰可见:升职,带更大的团队,安稳地成为这个领域的权威。
彼时,DeepSeek、月之暗面已经凭借语言模型完成了第一轮声量积累;字节的 Seed 团队却成立还不到一年,视觉基础模型方向还在从零搭建。
加入字节后,范浩奇启动了一个名为 BAGEL 的项目。当时的开源多模态模型有一个普遍问题:要么只做理解,要么只做生成,很少有把两者统一起来且效果足够好的。于是,范浩奇团队希望做一款统一的、开源的多模态理解和生成模型。他们采取了一个相对激进的策略——大规模收集和清洗交错多模态数据,然后把数据喂给模型,赌的是数据规模本身能带来质变。
这个策略执行了将近一年。2025 年 5 月,BAGEL 正式发布。结果超出预期:发布后不到 24 小时,在 Hugging Face 趋势榜上登顶第一。在多模态理解的标准测试中,BAGEL 超过了当时同样备受关注的 Qwen2.5-VL。
图片来源:范浩奇的 Twitter
但让团队最兴奋的不是榜单排名,而是一个没有预设过的发现。在 BAGEL 的技术报告中写道:" 令我们最惊讶的是,当交错多模态数据的规模扩大到一定程度时,模型涌现出了推理能力。" 团队在设计 BAGEL 时没有专门针对推理能力做过优化,他们只是不断增大数据规模,然后发现模型开始能够回答需要多步推理的复杂问题了。这并不是固有的设计,而是大量数据堆出来的突然涌现。范浩奇本人在推特上提到这个发现时用了一个词—— "surprised"。
数千万元的赌注
2026 年初,字节跳动 Seed 团队把新成立的世界模型研究组交给了范浩奇。他研究 3D 仿真路线,主攻娱乐和游戏场景;字节的另一团队李航和王文千走 VLA 路线,主攻具身智能。他们的目标是一致的——让 AI 从只能生成文字和图片,进化到能理解物理世界的运行逻辑。
这个方向在学术界被称为 " 世界模型 ",核心是让 AI 学会理解物理世界中的因果关系、空间关系和时间演化规律。2025 年 8 月,Google DeepMind 发布了 Genie 3,成为全球在这个方向上表现最突出的模型。字节为范浩奇设置了极有挑战性的目标:2026 年底之前,拿出性能对标 Genie 3 的产品。
字节为这个目标配置的资源令人侧目。据行业媒体报道,训练数据预算高达数千万元,是其他厂商的三到四倍。在招聘方面,字节向 DeepSeek、OpenAI、DeepMind、Meta 的研究员发起定向挖猎,范浩奇团队开出的薪酬比市场平均水平高出 30% 到 50%,研究员的年薪范围在 180 万到 250 万之间。字节愿意下这个注,是因为他们判断世界模型可能是继大语言模型之后 AI 行业最重要的战场,谁能先做出足够好的世界模型,谁就有可能在下一代技术范式中占据主动。
从被任命到年底,不到十二个月。范浩奇的团队需要在这段时间里拿出对标 Google 最强模型的产品。这个目标能不能实现,现在还没有答案。数据标注团队 50 人在春节期间没有休息,在为这个目标竭尽全力地努力着。但在整个中国 AI 行业里,能被委以这样的责任、拿到这样的资源、被寄予这样的期望的人,委实不算多。
从第一人称视频到世界模型,范浩奇的研究对象从 " 人在做什么 " 变成了 " 物理世界如何运行 "。虽然他从未解释过为什么总是选择这些边界模糊的问题来研究,但事后回看,他的每一次转向,方向都对了。而这一次的结果,会在 2026 年底给出他的答卷。
作者:Yanlin Hang
参考文献:
[ 1 ] 来源:范浩奇个人主页
链接:https://haoqifan.github.io
[ 2 ] 来源:Google Scholar - Haoqi Fan
链接:https://scholar.google.com/citations?user=76B8lrgAAAAJ&hl=en
[ 3 ] 来源:X/Twitter @HaoqiFan
链接:https://x.com/HaoqiFan
[ 4 ] 来源:LinkedIn - Haoqi Fan
链接:https://www.linkedin.com/in/haoqi-fan-a190a3189
[ 5 ] 来源:OpenReview - Haoqi Fan
链接:https://openreview.net/profile?id=~Haoqi_Fan2
[ 6 ] 来源:CMU Robotics Institute - Haoqi Fan ( MSCV 2016 )
链接:https://www.ri.cmu.edu/robotics-education/computer-vision-mscv/ ( 校友名录 )
[ 7 ] 来源:Kris Kitani - CMU Faculty Page
链接:https://www.ri.cmu.edu/ri-faculty/kris-kitani/
[ 8 ] 来源:Going Deeper into First-Person Activity Recognition ( CVPR 2016 )
链接:https://openaccess.thecvf.com/content_cvpr_2016/html/Ma_Going_Deeper_Into_CVPR_2016_paper.html
[ 9 ] 来源:Stacked Latent Attention for Multimodal Reasoning ( CVPR 2018 )
链接:https://openaccess.thecvf.com/content_cvpr_2018/html/Fan_Stacked_Latent_Attention_CVPR_2018_paper.html
[ 10 ] 来源:SlowFast Networks for Video Recognition ( ICCV 2019 Oral )
链接:https://openaccess.thecvf.com/content_ICCV_2019/html/Feichtenhofer_SlowFast_Networks_for_Video_Recognition_ICCV_2019_paper.html
[ 11 ] 来源:Momentum Contrast for Unsupervised Visual Representation Learning, MoCo ( CVPR 2020 Oral, Best Paper Nomination )
链接:https://openaccess.thecvf.com/content_CVPR_2020/html/He_Momentum_Contrast_for_Unsupervised_Visual_Representation_Learning_CVPR_2020_paper.html
[ 12 ] 来源:Multiscale Vision Transformers, MViT ( ICCV 2021 )
链接:https://openaccess.thecvf.com/content/ICCV2021/html/Fan_Multiscale_Vision_Transformers_ICCV_2021_paper.html
[ 13 ] 来源:Masked Autoencoders As Spatiotemporal Learners, MAE-ST ( NeurIPS 2022 )
链接:https://proceedings.neurips.cc/paper_files/paper/2022/hash/4087ea5bbde308b0effa396a6be9451e-Abstract-Conference.html
[ 14 ] 来源:Scaling Language-Image Pre-training via Masking, FLIP ( 2022 )
链接:https://arxiv.org/abs/2212.00794
[ 15 ] 来源:BAGEL: Emerging Properties in Unified Multimodal Pretraining ( 2025 )
链接:https://arxiv.org/abs/2505.14683
[ 16 ] 来源:GitHub - BAGEL by ByteDance Seed
链接:https://github.com/bytedance-seed/BAGEL
[ 17 ] 来源:ByteDance Seed - BAGEL Official Page
链接:https://seed.bytedance.com/zh/bagel
[ 18 ] 来源:PySlowFast GitHub Repository
链接:https://github.com/facebookresearch/SlowFast
[ 19 ] 来源:PyTorchVideo GitHub Repository
链接:https://github.com/facebookresearch/pytorchvideo
[ 20 ] 来源:36 氪《智能涌现》独家报道 - 字节世界模型人事变动与战略布局
链接:https://t.cj.sina.cn/articles/view/1750070171/684ff39b02001euma
[ 21 ] 来源:赢仕猎头行业分析 - 字节世界模型团队薪酬与招聘信息
链接:https://www.winheadhunter.com/news/global_industrynews/296.html
加入 ZF 讨论群,请先添加小助手微信
---------END--------
我们相信认知能够跨越阶层,
致力于为年轻人提供高质量的科技和财经内容。
投稿邮箱:zfinance2023@126.com
稿件经采用可获邀进入 Z Finance 内部社群,优秀者将成为签约作者,00 后更有机会成为 Z Finance 的早期共创成员。
我们正在招募新一期的实习生


登录后才可以发布评论哦
打开小程序可以发布评论哦