范浩奇：字节Seed世界模型负责人，何恺明老搭档，要在6个月内追上Google最强世界模型

2025 年 5 月，一款名为 BAGEL 的开源多模态模型在 Hugging Face 上登顶趋势榜第一。它在标准多模态理解测试中超过了当时热门的 Qwen2.5-VL，被社区视为 GPT-4o 和 Gemini 2.0 最强有力的开源替代方案。但最让发布团队意外的不是榜单排名，而是他们在训练中发现：随着交错多模态数据的规模持续扩大，模型自己涌现出了推理能力。这不是刻意设计的结果，而是庞大的数据库自发创造的惊喜。

这个项目背后的人叫范浩奇，谷歌学术总引用量超过四万次，与何恺明共同创作的 MoCo 论文改变了计算机视觉领域对自监督学习的认知。几乎在过去十年计算机视觉领域的每一次范式转移中都有它的参与：CNN 时代的 SlowFast，Transformer 时代的 MViT 和 MAE-ST，多模态时代的 BAGEL。

2026 年春节刚过，字节跳动 Seed 团队就把新成立的世界模型研究组交给了范浩奇。这一次，他的任务是：2026 年底之前，拿出一款性能对标 Google Genie 3 的世界模型。字节为此批下了数千万元的训练数据预算，是其他厂商的三到四倍，招聘开出的薪酬比市场平均水平高出百分之三十到五十。一个在 FAIR（Facebook AI Research）待了七年的研究员，回国不到两年，就被推到了一场全球竞争的最前沿。而敢于直面挑战，也正是范浩奇数十年来的工作准则。

图片来源：Linkedin

冷门方向的起点

2013 年，范浩奇远渡重洋，进入卡内基梅隆大学机器人研究所。这所学院在全球机器人学领域排名第一，以机器人控制、SLAM、机械设计等硬核方向著称。大多数毕业生去了波士顿动力和 NASA，或者自己创办机器人公司。范浩奇在这里选择的研究方向，对于当时的计算机视觉领域而言，属于冷门中的冷门：第一人称视觉活动识别。

后来与他长期合作的 Christoph Feichtenhofer 在一次访谈中提到：" 好的研究者不是追逐热点的人，而是找到重要问题并持续投入的人。"范浩奇在 CMU 的选择，也许是这句话最早的注脚。

范浩奇的导师是 Kris Kitani 教授，专注于第一视角视觉、行为预测和人机交互的研究。在 Kitani 的指导下，范浩奇参与了第一人称活动识别的研究，相关成果以第二作者身份发表于 CVPR 2016。硕士毕业后，在 CVPR 2018 上，他以第一作者发表了关于多模态推理的论文《Stacked Latent Attention for Multimodal Reasoning》。对于一个硕士毕业生来说，两篇 CVPR 已经是相当漂亮的成绩单。

在 CMU 的几年里，他收获了底层训练的思维能力：从系统层面理解问题，而不是从某个具体的 benchmark 出发。机器人研究所的思维方式让他学会不能只关心 " 这个视觉信号是什么 "，还必须注意 " 这个信号对应着怎样的物理世界、应该做出什么反应 "。这种看问题的角度，让他在后来转向多模态、世界模型等领域的时候，变成了一种独特的先发优势。

硕士毕业后，他没有继续读博，而是直接进入了工业界。当时正值深度学习浪潮席卷全球，Facebook AI Research 正处于最激进的扩张期，大批顶尖研究者从学术界涌入。范浩奇选择了 FAIR，一待就是七年。

图片来源：范浩奇的 GitHub

在 FAIR 站稳脚跟

2016 年，范浩奇加入 Facebook AI Research。那时的 FAIR 是全球 AI 研究员最向往的实验室之一—— Yann LeCun 坐镇，Ross Girshick 的 Faster R-CNN 统治着目标检测，何恺明刚刚用 ResNet 刷新了人们对深度学习深度的认知。

在 FAIR 的头几年，他并不是最引人注目的那个名字。但如果你翻阅 2016 到 2020 年间 FAIR 产出的视频理解方向论文，他的名字几乎无处不在。视频理解，也是范浩奇加入 FAIR 立稳脚跟的第一张牌。当时，何恺明和 Christoph Feichtenhofer 提出了一个想法：设计两条并行的网络路径，一条处理慢速的语义信息，一条捕捉快速的时间动态。这个想法后来被命名为 SlowFast。SlowFast 是 FAIR 视频理解团队共同完成的工作，范浩奇是核心作者之一，负责大规模实验验证与系统落地，与 Feichtenhofer、何恺明等人深度协作完成了这一工作。2019 年，SlowFast 被 ICCV 接收为 Oral 论文，成为视频理解领域的标杆工作之一。范浩奇通过这个项目证明了，他能把顶级的想法变成顶级的执行。

同期，他主导开发了 PySlowFast 代码库，这个开源工具后来成为全球视频理解研究者的标准工具箱，在 GitHub 上获得高星。2019 年 6 月，他带领团队在 AVA 视频活动检测挑战赛中获得第一名。同年 11 月，他开始在 ICCV 合办视觉识别教程，随后又在 CVPR 2020 和 ECCV 2020 延续了这一工作——在学术界，教程组织者通常是领域内公认的专家才被邀请担任的角色。在三十岁之前，范浩奇已经是视频理解领域被同行认可的重要人物。

但真正让他从实验室的年轻人中站出来的，是 2020 年的 MoCo。在 2019 年底，计算机视觉领域的主流观点仍然是：没有标签的视觉模型不可能达到监督学习的水平。但何恺明认为：可以用动量对比的方式构建一个动态字典，让模型从大量无标签数据中学习有用的视觉表征。在 MoCo 的研发过程中，范浩奇承担了核心的系统实现与实验验证工作，与何恺明紧密协作——这也是两人长期合作模式的起点。

2020 年 6 月，MoCo 被 CVPR 接收为 Oral 论文，获得最佳论文提名。消息公布后，整个自监督学习领域开始快速转向——研究者们突然意识到，无监督学习确实可以做到和监督学习接近甚至更好的效果。MoCo 的代码被开源，成为该领域使用最广泛的基准工作之一。范浩奇的谷歌学术在 2020 年迎来了第一次陡峭的攀升，年度引用从上一年的 224 跃升到 1120。

MoCo 之后，范浩奇与何恺明的合作就保持了长期且稳定的关系。2020 年的 MoCo v2，2022 年的 MAE-ST ……在 FAIR 的华人研究员群体中，范浩奇是少数几个能与何恺明持续合作多篇重磅论文的年轻人。他们的工作模式是：何恺明擅长提出概念性和方向性的想法，范浩奇擅长把这些想法快速落地为实验结果，并用实验反馈来修正和优化原始思路。这是一个高效的闭环。

在 FAIR 的七年里，范浩奇从何恺明和其他资深研究员身上学到的最重要的东西，可能不是具体的技术，而是一种判断力——什么样的问题是真正值得花时间去解决的，什么样的方向在长期来看更重要。这种判断力，后来成为他在每一次范式转移前都能提前转身的核心支撑。

在热点转移之前提前出发

" 如果你在一个研究领域中停留太久，你很可能会在下一个浪潮到来时丧失竞争力。与其被动地被技术演进淘汰，不如主动淘汰自己已有的存量优势。" 这似乎是范浩明一以贯之的判断逻辑。而这个逻辑在 2023 年得到了验证。

2020 年到 2022 年，计算机视觉领域经历了剧烈的范式转移。CNN 的统治地位开始松动，Transformer 从自然语言处理 " 跨界 " 到视觉领域，自监督学习从边缘走向主流，多模态模型开始展现出超越纯视觉模型的能力。很多在 CNN 时代积累了丰富经验的研究者在这波浪潮中措手不及，因为过去赖以成名的工具和框架突然变得不再适用。

范浩奇的应对方式是：在每一个拐点到来之前，主动换道。2021 年，他参与了多尺度视觉 Transformer 的研究。当时 Vision Transformer 刚刚出现，大多数研究者还在摸索如何将 Transformer 有效地应用到视觉任务上。而范浩奇已经开始针对视频数据的时空特性设计多尺度的 Transformer 结构，让模型能够同时捕捉精细的空间细节和长程的时间依赖。

2022 年，他与何恺明再次联手，将掩码自编码器从图像扩展到视频时空域，提出了 MAE-ST。何恺明的 MAE 在图像领域已经证明了掩码策略的有效性，但如何将其迁移到视频——这个具有时间维度的数据形态——是一个关键的技术难题。同一年，他还参与了 FLIP 的研究，开始涉足视觉与语言结合的方向。这个转向在当时看来并不显眼，但它标志着范浩奇的研究边界正在从 " 让机器看懂图像 " 拓展到 " 让机器同时理解图像和语言 "。这个转向为他日后进入多模态领域积累了方法论基础。

这三项工作放在一起看，可以捕捉到范浩奇身上一个不太被提及的特质：他愿意主动放弃已有的优势。MoCo 已经让他站在了自监督学习的前沿，如果愿意，他完全可以在那个方向上持续深耕，每年稳定产出，积累更高的引用量。但他没有这么做。他先后从自监督转向了 Transformer 架构，又从纯视觉转向了视觉 - 语言结合。每一次转向都意味着离开熟悉的领域，进入一个需要重新学习、重新证明自己的新战场。

图片来源：范浩奇的 Twitter（左一）

Hugging Face 第一的背后

2023 年末，范浩奇选择离开 Meta FAIR，加入字节跳动 Seed 团队。从外部看，这是一个放弃了很多确定性的决定。

彼时的他，参与的多项工作已经成为计算机视觉领域的标杆——自监督学习的 MoCo、视频理解的 SlowFast、时空掩码自编码器 MAE-ST。留下来的剧本清晰可见：升职，带更大的团队，安稳地成为这个领域的权威。

彼时，DeepSeek、月之暗面已经凭借语言模型完成了第一轮声量积累；字节的 Seed 团队却成立还不到一年，视觉基础模型方向还在从零搭建。

加入字节后，范浩奇启动了一个名为 BAGEL 的项目。当时的开源多模态模型有一个普遍问题：要么只做理解，要么只做生成，很少有把两者统一起来且效果足够好的。于是，范浩奇团队希望做一款统一的、开源的多模态理解和生成模型。他们采取了一个相对激进的策略——大规模收集和清洗交错多模态数据，然后把数据喂给模型，赌的是数据规模本身能带来质变。

这个策略执行了将近一年。2025 年 5 月，BAGEL 正式发布。结果超出预期：发布后不到 24 小时，在 Hugging Face 趋势榜上登顶第一。在多模态理解的标准测试中，BAGEL 超过了当时同样备受关注的 Qwen2.5-VL。

图片来源：范浩奇的 Twitter

但让团队最兴奋的不是榜单排名，而是一个没有预设过的发现。在 BAGEL 的技术报告中写道：" 令我们最惊讶的是，当交错多模态数据的规模扩大到一定程度时，模型涌现出了推理能力。" 团队在设计 BAGEL 时没有专门针对推理能力做过优化，他们只是不断增大数据规模，然后发现模型开始能够回答需要多步推理的复杂问题了。这并不是固有的设计，而是大量数据堆出来的突然涌现。范浩奇本人在推特上提到这个发现时用了一个词—— "surprised"。

数千万元的赌注

2026 年初，字节跳动 Seed 团队把新成立的世界模型研究组交给了范浩奇。他研究 3D 仿真路线，主攻娱乐和游戏场景；字节的另一团队李航和王文千走 VLA 路线，主攻具身智能。他们的目标是一致的——让 AI 从只能生成文字和图片，进化到能理解物理世界的运行逻辑。

这个方向在学术界被称为 " 世界模型 "，核心是让 AI 学会理解物理世界中的因果关系、空间关系和时间演化规律。2025 年 8 月，Google DeepMind 发布了 Genie 3，成为全球在这个方向上表现最突出的模型。字节为范浩奇设置了极有挑战性的目标：2026 年底之前，拿出性能对标 Genie 3 的产品。

字节为这个目标配置的资源令人侧目。据行业媒体报道，训练数据预算高达数千万元，是其他厂商的三到四倍。在招聘方面，字节向 DeepSeek、OpenAI、DeepMind、Meta 的研究员发起定向挖猎，范浩奇团队开出的薪酬比市场平均水平高出 30% 到 50%，研究员的年薪范围在 180 万到 250 万之间。字节愿意下这个注，是因为他们判断世界模型可能是继大语言模型之后 AI 行业最重要的战场，谁能先做出足够好的世界模型，谁就有可能在下一代技术范式中占据主动。

从被任命到年底，不到十二个月。范浩奇的团队需要在这段时间里拿出对标 Google 最强模型的产品。这个目标能不能实现，现在还没有答案。数据标注团队 50 人在春节期间没有休息，在为这个目标竭尽全力地努力着。但在整个中国 AI 行业里，能被委以这样的责任、拿到这样的资源、被寄予这样的期望的人，委实不算多。

从第一人称视频到世界模型，范浩奇的研究对象从 " 人在做什么 " 变成了 " 物理世界如何运行 "。虽然他从未解释过为什么总是选择这些边界模糊的问题来研究，但事后回看，他的每一次转向，方向都对了。而这一次的结果，会在 2026 年底给出他的答卷。

作者：Yanlin Hang

参考文献：

[ 1 ] 来源：范浩奇个人主页

链接：https://haoqifan.github.io

[ 2 ] 来源：Google Scholar - Haoqi Fan

链接：https://scholar.google.com/citations?user=76B8lrgAAAAJ&hl=en

[ 3 ] 来源：X/Twitter @HaoqiFan

链接：https://x.com/HaoqiFan

[ 4 ] 来源：LinkedIn - Haoqi Fan

链接：https://www.linkedin.com/in/haoqi-fan-a190a3189

[ 5 ] 来源：OpenReview - Haoqi Fan

链接：https://openreview.net/profile?id=~Haoqi_Fan2

[ 6 ] 来源：CMU Robotics Institute - Haoqi Fan ( MSCV 2016 )

链接：https://www.ri.cmu.edu/robotics-education/computer-vision-mscv/ ( 校友名录 )

[ 7 ] 来源：Kris Kitani - CMU Faculty Page

链接：https://www.ri.cmu.edu/ri-faculty/kris-kitani/

[ 8 ] 来源：Going Deeper into First-Person Activity Recognition ( CVPR 2016 )

链接：https://openaccess.thecvf.com/content_cvpr_2016/html/Ma_Going_Deeper_Into_CVPR_2016_paper.html

[ 9 ] 来源：Stacked Latent Attention for Multimodal Reasoning ( CVPR 2018 )

链接：https://openaccess.thecvf.com/content_cvpr_2018/html/Fan_Stacked_Latent_Attention_CVPR_2018_paper.html

[ 10 ] 来源：SlowFast Networks for Video Recognition ( ICCV 2019 Oral )

链接：https://openaccess.thecvf.com/content_ICCV_2019/html/Feichtenhofer_SlowFast_Networks_for_Video_Recognition_ICCV_2019_paper.html

[ 11 ] 来源：Momentum Contrast for Unsupervised Visual Representation Learning, MoCo ( CVPR 2020 Oral, Best Paper Nomination )

链接：https://openaccess.thecvf.com/content_CVPR_2020/html/He_Momentum_Contrast_for_Unsupervised_Visual_Representation_Learning_CVPR_2020_paper.html

[ 12 ] 来源：Multiscale Vision Transformers, MViT ( ICCV 2021 )

链接：https://openaccess.thecvf.com/content/ICCV2021/html/Fan_Multiscale_Vision_Transformers_ICCV_2021_paper.html

[ 13 ] 来源：Masked Autoencoders As Spatiotemporal Learners, MAE-ST ( NeurIPS 2022 )

链接：https://proceedings.neurips.cc/paper_files/paper/2022/hash/4087ea5bbde308b0effa396a6be9451e-Abstract-Conference.html

[ 14 ] 来源：Scaling Language-Image Pre-training via Masking, FLIP ( 2022 )

链接：https://arxiv.org/abs/2212.00794

[ 15 ] 来源：BAGEL: Emerging Properties in Unified Multimodal Pretraining ( 2025 )

链接：https://arxiv.org/abs/2505.14683

[ 16 ] 来源：GitHub - BAGEL by ByteDance Seed

链接：https://github.com/bytedance-seed/BAGEL

[ 17 ] 来源：ByteDance Seed - BAGEL Official Page

链接：https://seed.bytedance.com/zh/bagel

[ 18 ] 来源：PySlowFast GitHub Repository

链接：https://github.com/facebookresearch/SlowFast

[ 19 ] 来源：PyTorchVideo GitHub Repository

链接：https://github.com/facebookresearch/pytorchvideo

[ 20 ] 来源：36 氪《智能涌现》独家报道 - 字节世界模型人事变动与战略布局

链接：https://t.cj.sina.cn/articles/view/1750070171/684ff39b02001euma

[ 21 ] 来源：赢仕猎头行业分析 - 字节世界模型团队薪酬与招聘信息

链接：https://www.winheadhunter.com/news/global_industrynews/296.html

加入 ZF 讨论群，请先添加小助手微信

---------END--------

我们相信认知能够跨越阶层，

致力于为年轻人提供高质量的科技和财经内容。

投稿邮箱：zfinance2023@126.com

稿件经采用可获邀进入 Z Finance 内部社群，优秀者将成为签约作者，00 后更有机会成为 Z Finance 的早期共创成员。

我们正在招募新一期的实习生

宙世代

一起剪

相关标签