量子位 昨天
LeCun在Meta的最后一篇论文
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

《LeJEPA:无需启发式的可证明且可扩展的自监督学习》

" 这可能是 LeCun 以 Meta 身份发表的最后一篇论文了。"

没错,这篇带 "Le" 的论文,介绍了一种自监督学习方法,于 11 月 11 日在 arXiv 提交,是 LeCun 的最新公开成果。

也是在这一天,他离职 Meta 的消息被曝光。

如果说 LeCun 在 2013 年加入开启了 Meta AI 研究的一个时代,那么LeJEPA就是他在 Meta 的告别之作。

LeJEPA究竟是怎样的 " 最后一舞 "?

LeJEPA:基于各向同性高斯嵌入的自监督学习方法

LeJEPA核心是提出了一种基于各向同性高斯嵌入的自监督学习方法,通过引入SIGReg正则化,有效解决了表示崩溃问题,并显著提升了模型的泛化能力。

在传统的 JEPA 框架中,预测任务常面临表示崩溃的问题。

这意味着,在训练过程中,模型可能将所有输入映射到单一的点或低维空间,导致嵌入空间中的样本不可区分,从而无法有效捕捉样本间的语义差异。

针对这一问题,现有方法依赖启发式技术,如停止梯度、非对称视图生成和教师 - 学生网络,但这些方法由于缺乏对 JEPA 基础理论的探索,被视为替代方案。

基于以上背景,研究提出一种新的 JEPA 框架——潜在欧几里得 JEPA(Latent-Euclidean Joint Embedding PredictiveArchitecture,LeJEPA),其核心是使嵌入空间遵循特定的统计分布,从而提升模型的预测性能。

嵌入分布的影响

首先,研究通过最小二乘回归(OLS)分析了嵌入分布对偏差和方差的影响。

结果表明,等向高斯分布能够最小化训练过程中的偏差和方差。

特别地,在总方差相同的情况下,非等向分布会导致更高的偏差和方差,而等向高斯分布则能够有效地保证最小的偏差和方差,从而提高下游任务的稳定性和准确性。

通过在非线性探测和几何直觉方面的实验,研究进一步验证了等向高斯分布的优越性。

实验表明,无论是在回归任务还是分类任务中,等向高斯分布都能保持最小的误差,而非等向分布则表现出较高的方差。

研究表明, 各向同性高斯分布是嵌入空间的最佳分布,它可以在没有任务信息的情况下,保证最小化偏差和方差,从而提高下游任务的表现。

SIGReg:实现高斯分布的正则化

为实现上述分布匹配,研究提出了草图化各向同性高斯正则化(Sketched Isotropic Gaussian Regularization,SIGReg),这是一种可处理、可证明正确的正则化方法。

SIGReg 的创新点在于:

将分布匹配问题转化为统计假设检验,通过零假设与目标分布的匹配来实现

提供了一种测试方法,保证在多 GPU 训练时的高效性,并确保梯度和曲率有界

解决了高维空间中的维度灾难问题。

SIGReg 通过单变量方向检验,结合 Epps-Pulley 测试来判断嵌入分布与目标分布(等向高斯分布)的匹配程度。

它将分布匹配转化为零假设与备择假设的检验,并通过统计量判断是否拒绝零假设,从而确认分布是否匹配。

高维问题的解决

SIGReg 还通过两条机制解决了高维空间中的计算挑战:

平滑性:嵌入函数的 Sobolev 平滑性保证了在仅需 O ( K ) 个方向切片的情况下即可有效约束整个空间,进行有效的统计检验。

SGD 迭代特性:训练过程中方向的重复采样累积效应使得即使方向数量很少(如 M=16),也能迅速收敛到各向同性分布,优于固定方向集。

在实现方面,LeJEPA 结合了 SIGReg 和预测损失两部分,通过 Epps-Pulley 统计量实现分布匹配,并通过小批次训练保证计算效率和稳定性。最终的总损失是 SIGReg 损失和预测损失的加权和。

SIGReg 损失:通过 Epps-Pulley 统计量计算,确保训练过程中梯度有界,并通过积分近似提升计算效率。小批次训练引入的偏差对训练影响较小。

预测损失:与 DINO 方法相似,通过计算所有视图预测全局视图的差异。

LeJEPA 总损失:是 SIGReg 损失和预测损失的加权和,其中一个超参数 λ 用于平衡这两部分的权重。

实验验证与结果

为了验证 LeJEPA 的可靠性,研究在多个大型架构上进行实验,包括 ViT、ConvNeXt、ResNet、MaxViT 和 Swin Transformer 等,模型规模接近 10 亿参数。

实验结果显示,LeJEPA 在这些架构上表现超越现有方法,且保持了训练的简便性和鲁棒性。

特别地,在领域特定的数据集(如 Galaxy10、Food101)上,LeJEPA 在直接在目标数据上预训练时超越了基于 DINOv2 的迁移学习方法。

总的来说,LeJEPA 延续了之前 JEPA 的探索,重新确立了自监督学习作为 AI 研究的核心方法。

LeJEPA 通过提供一个简单且理论上有支持的框架,使得从数据中学习表示变得更加高效,并在多个任务中展示了优越的性能。

JEPA 世界模型

自 LeCun 于 2022 年在《A Path Towards Autonomous Machine Intelligence》中首次提出 JEPA 以来,基于 JEPA 的架构已经发展了整整三年。

JEPA(Joint-Embedding Predictive Architecture)是一种自监督学习框架,旨在通过基于嵌入空间的联合预测方法来提升模型的表达能力和推理能力。

与生成式模型不同,它并不能简单地用于从 x 预测 y,它仅捕捉 x 和 y 之间的依赖关系而无需显式生成 y 的预测。

此外,为了应对长期规划问题,JEPA 还可以进一步通过分层架构(即 H-JEPA)来增强其抽象能力。

在 H-JEPA 中,低层表示处理短期预测任务,而高层表示则用于长期预测。

这种分层结构使得模型在进行长期规划时,可以在不同的抽象层次上进行操作,从而提高可预测性和减少信息损失。

值得一提的是,JEPA 架构通常与世界模型密切相关,只不过其与一般意义上的世界模型仍有区别。

传统的世界模型一般指能够模拟环境或系统的模型,其主要目的是通过预测未来状态来实现长期规划和决策(如强化学习)。

而 JEPA 则是一种通过联合嵌入空间学习状态与动作转移的架构,重点在于结合表示学习和自监督学习来完成预测和规划任务。

在 JEPA 中,世界模型的目的是预测世界状态的未来表现形式。

具体而言,JEPA 通过学习状态与动作的转移来训练世界模型,其核心在于从当前状态的表示推断未来状态的表示,这一过程是在联合嵌入空间中完成的。该空间通过最小化预测误差来学习状态表示与动作之间的关系。

尽管最初的 JEPA 论文呈现出一种对生成式 AI 的反思,描述了人工智能未来的愿景,并指出这一愿景可能需要数十年的时间才能实现。

但自 2022 年夏季发布以来,在 LeCun 的推动下,JEPA 架构已经取得了一些显著进展。

I-JEPA: Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

与其他图像 SSL 方法相比,I-JEPA 充分利用了 Transformer 架构的灵活性。

在 I-JEPA 中,上下文编码器是一个 ViT,它仅处理可见的上下文块。

预测器接收上下文编码器的输出,并根据位置标记(以颜色显示)预测特定位置的目标块表示。

目标表示对应于目标编码器的输出,权重在每次迭代中通过上下文编码器权重的指数滑动平均进行更新。

V-JEPA: Revisiting Feature Prediction for Learning Visual Representations from Video

V-JEPA 是 I-JEPA 在视频领域的扩展,它通过将视频视为 3D 图像来实现这一点。

训练过程基于一个包含 T 帧的视频片段,空间分辨率为 H × W,并将其展平成一个 L 个 token 的序列。

首先通过从视频片段中去除一些 tokens 来获得 x-encoder 的输入。

接着,x-encoder 处理被屏蔽的视频序列,并为每个输入 token 输出一个嵌入向量。

然后,x-encoder 的输出与一组可学习的 mask tokens 进行拼接,这些 mask tokens 包含了被屏蔽的时空补丁的位置信息嵌入。

预测网络处理拼接后的 token 序列,并为每个 mask token 输出一个嵌入向量。

最后,预测网络的输出通过 L1 损失回归到预测目标。预测目标对应于 y-encoder 的输出。

今年 7 月,LeCun 团队又进一步发布了V-JEPA 2

V -JEPA 2 基于 V-JEPA,进一步提升了动作预测和世界建模能力,使机器人能够与陌生物体和环境进行交互,从而完成任务。

MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features

MC-JEPA 是 JEPA 的扩展,使其能够包含运动信息。

架构通过在视频中使用光流估计学习运动,并通过图像视角的联合嵌入学习内容,以多任务方式共享编码器。其光流估计架构基于 PWC-Net。

光流估计采用粗到精的方式,先估算初步的光流,再逐层精细化,最终通过图像重建损失来优化。

整个过程中,前向 - 反向光流的一致性通过循环一致性损失得到强化。为了避免训练不稳定,模型在每个特征层使用方差 - 协方差正则化。

除上述工作以外,LeCun 及其团队还进一步围绕 JEPA 发表了JEPAsLLM-JEAP等工作。

总的来说,尽管 JEPA 架构相较于传统监督学习方法提供了一条新路径,但其自发布以来就毁誉参半。

比如,有人批评 JEPA 架构过于抽象,难以应用到最前沿的主流模型中,其与生成式 AI 的背离也让不少网友将 Meta 的失利归咎于 LeCun 的学术取向。

甚至有 Meta AI 员工表示:Fair 尚未证明自己是 DeepMind 等研究机构的真正竞争对手。

而最新发布的 LeJEPA 也彻底在 LeCun 和 Meta 之间划上了句号。

不过,LeJEPA 虽然可能 LeCun 在 Meta 的研究终点,但肯定不是 JEPA 发展的终结。

据消息称,LeCun 已经在筹集资金,创办初创公司,继续推进他在世界模型方面的工作。

而在 AI 热辣滚烫之下,这位 65 岁图灵奖得主、AI 三巨头之一的教父级人物,创业又岂会缺资源?

唯一的问题,只可能是 LeCun 一直以来给人过于 " 学术 " 的风格和印象,担忧他在严格计算 ROI 的商业世界里,再次遭遇 Meta 生涯末期里的分歧和困境。

One more thing

虽然 LeCun 与 Meta 的 " 分手 " 说不上体面,但在 Meta 的这十多年也许是 LeCun 生涯中最顺的时期——

深度学习爆发、加入纽大、建立 FAIR、办顶会(ICLR)、拿图灵奖、出自传(《科学之路》)、发 paper,带学生。

自 2013 年加入 Meta 以来,LeCun 的个人被引飙升,约为406919次,占总数的93%

虽然光三巨头合写的《深度学习》综述就贡献了10 万多次,但也足见 LeCun 学术影响力的飙升。

这段黄金时期不仅见证了 LeCun 个人事业的巅峰,更推动了整个 AI 领域的发展。

江湖上至今流传着扎克伯格当年现身NIPS时的轰动,并且都在认为他会带走一票 AI 天才……

扎克伯格与约书亚 · 本吉奥在 NIPS 2013

但最后扎克伯格只是请来了 LeCun,一人胜过千军万马。

LeCun 成就了 FacebookMeta 的 AI 转型之名,成为了金字招牌;Meta 也一度给过 LeCun 足够自由的研究待遇和环境。

只是最后结局前的波澜,令人唏嘘~

好在,65 岁的 Yann LeCun,依旧是闯的年纪~~

参考链接

[ 1 ] https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

[ 2 ] https://arxiv.org/abs/2511.08544

[ 3 ] https://arxiv.org/abs/2301.08243

[ 4 ] https://malcolmlett.medium.com/critical-review-of-lecuns-introductory-jepa-paper-fabe5783134e

[ 5 ] https://github.com/GihhArwtw

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

  年度科技风向标「2025 人工智能年度榜单」申报即将于 11 月 17 日截止点击了解详情

❤️‍   企业、产品、人物 3 大维度,共设立了 5 类奖项,最后时刻一起冲刺 

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

高斯 本间 ai 离职
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论