腾讯胡文博：引领 3D 视频世界模型新趋势

2025 年 12 月 12-13 日，由 GAIR 研究院与雷峰网联合主办的「第八届 GAIR 全球人工智能与机器人大会」，将在深圳南山 · 博林天瑞喜来登酒店举办。

今年大会，将开设三个主题论坛，聚焦大模型、算力变革、世界模型等多个议题，描绘 AI 最前沿的探索群像，折射学界与产业界共建的智能未来。

腾讯 ARC 实验室高级研究员胡文博也将莅临 12 月 13 日《世界模型》论坛，带来《Towards 3D-aware Video World Models 》（《迈向三维感知的视频世界模型》）的主题分享。

过去一年多，Sora 为代表的视频生成模型，成为继大语言模型（LLM）后新的学术热点。本质上讲，当下火爆的视频生成模型，是一种世界模型，其核心目的是生成一段逼真、连贯的视频。

要达到这样的目的，模型必须在一定程度上理解这个世界的运作方式（比如水往低处流、物体碰撞后的运动、人的合理动作等）。

胡文博正是世界模型研究领域近两年的绝对新锐。

2022 年，胡文博获得香港中文大学计算机科学与工程博士学位。至今，胡文博已经在图形学和视觉国际期刊和会议发表 20 余篇论文。

深耕视频生成模型，Tri-MipR 一鸣惊人

1996 年出生的胡文博已经在世界模型领域深耕数年。

2018 年，胡文博从大连理工大学毕业，还获得了辽宁省优秀毕业生的殊荣。对计算机充满热忱的胡文博并没有选择直接工作，而是奔赴香港中文大学攻读计算机博士学位。

求学期间，胡文博曾先后在大疆、阿里巴巴达摩院、腾讯等知名企业实习。

2022 年后，从香港中文大学博士毕业的胡文博，选择加入字节跳动 PICO 混合现实团队，担任研究员。也是这一阶段，胡文博发表了《Tri-MipRF: Tri-Mip Representation for Efficient Anti-Aliasing Neural Radiance Fields》（以下简称《Tri-MipRF》）。这篇论文受到极大关注，入围 ICCV'2023 最佳论文决赛，并荣获 CVPR'2025 PixFoundation 研讨会最佳论文奖 .

雷峰网了解到，《Tri-MipRF》提出一种新颖的 Tri-Mip 编码（类似于 "mipmap"），即 Tri-MipRF，实现神经辐射场的即时重建和抗锯齿高保真渲染。

《Tri-MipRF》指出，尽管神经辐射场 ( NeRF ) 取得了巨大的进步，但我们仍然面临着质量和效率之间的权衡困境。MipNeRF 可以呈现精细的细节和抗锯齿的渲染效果，但训练需要数天时间； Instant-ngp 可以在几分钟内完成重建，却忽略了采样区域，在渲染时会出现模糊或锯齿。

Tri-MipRF 的关键在于将预滤波后的 3D 特征空间分解为三个正交的 mipmap。这样就可以利用预滤波后的 2D 特征图高效地进行 3D 区域采样，从而在不牺牲效率的前提下显著提升渲染质量。《Tri-MipRF》通过大量实验表明，其实现了最先进的渲染质量和重建速度。与 Instant-ngp 相比，Tri-MipRF 模型大小减少了 25%。

2023 年 11 月，胡文博加入腾讯担任高级研究员，继续在生成式世界模型深耕细作，不断探索 3D 视频世界模型的新边界。

视频世界模型迈向三维空间

流媒体视频生成作为交互式世界模型和神经游戏引擎的一个基本组成部分，旨在生成高质量、低延迟且时间上连贯的长视频流。

胡文博今年 9 月发表的论文《Rolling Forcing: Autoregressive Long Video Diffusion in Real Time》，分享了他们在这一领域的最新研究成果。

他们设计了 " 滚动强制 "（Rolling Forcing）这一新型视频生成技术，从而实现以最小的误差累积来流式生成长视频的目的。

" 滚动强制 " 有三项新颖的设计。

首先，" 滚动强制 " 设计了一种联合去噪方案，可以同时对多个噪声水平逐渐增加的帧进行去噪；其次，" 滚动强制 " 将注意力汇聚机制引入到长时流式视频生成任务中，使得模型能够将初始帧的键值状态作为全局上下文锚点，增强长期全局一致性；最后，" 滚动强制 " 设计了一种高效的训练算法，能够在大幅扩展的去噪窗口上进行少步蒸馏。

大量实验表明，" 滚动强制 " 能够在单块 GPU 上实时流式生成长达数分钟的视频，同时显著减少误差累积。

胡文博也曾经分享他对视频生成模型的场景演变的理解。

胡文博认为，当下的视频生成模型展现出了强大的内容生成能力，有潜力作为世界模拟器。但是由于其本质是在 2D 空间上的建模，所以不能保证 3D 合理性与一致性。

为此，胡文博提出，精确相机可控是视频生成模型进化为世界模拟器的重要一环，并在这个方向做了深入研究，提出 ViewCrafter 和 TrajectoryCrafter 的解决方案。

ViewCrafter 能够从单张图片或者稀疏的多视角图片进行高质量的新视角合成，从而实现静态场景的生成。

TrajectoryCrafter 延续这一思想，并将其拓展到了 4D 场景生成，允许用户使用想要的相机轨迹来重新 " 拍摄 " 输入视频，从而实现探索视频背后的 4D 世界。

雷峰网了解到，作为世界模型领域的先锋力量，胡文博的研究正引领 AI 从 2D 视频生成迈向三维空间理解的新时代。

12 月 13 日上午 9:30 - 10:00 的世界模型分论坛上，胡文博将带来《Towards 3D-aware Video World Models 》（《迈向三维感知的视频世界模型》）的主题演讲，分享他在视频世界模型领域的最新研究成果。

在这个乍暖还寒的季节，让我们共同期待胡文博的最新演讲，憧憬迈向三维感知的模型世界。

宙世代

一起剪

相关标签