" 如果没有开源,没有去和社区交流,我们靠闭门造车是空想不出来的。" 近日,在接受字母榜独家专访时,腾讯混元 3D 团队负责人郭春超这样说道。
郭春超的感慨来自于在近期的开源社区中,国产模型 " 搅动 " 了整个大模型业界的开源生态, Hugging Face 的模型热度榜单被中国企业连续 " 霸榜 "。最多时,前 10 开源席位中有 9 个来自中国。在排名前几的选手中,除了 "Text Generation"(文本生成)、"Text to Image"(文生图)等常见模态外,一款并不常见的 "Image to 3D"(图生 3D)模型挤入前三名,榜单中显示其为腾讯开发的 " 混元 3D 世界模型 1.0"。
" 混元 3D 世界模型 1.0" 是腾讯混元 3D 系列的最新成果,在不久前结束的 WAIC(世界人工智能大会)上发布并全面开源。在产品演示中,该模型可以用一句话、一张图生成一个可漫游、可编辑的 3D 世界。尽管有分析显示,该模型能力还在早期阶段,但其技术论文迅速登顶了 Hugging Face 的论文热度榜单。
近年来,腾讯在大模型领域版图不断扩展,但在传统的语言模型板块,腾讯旗下元宝等 C 端产品,就陷入了行业内同类产品的高强度 " 内卷 "。而在有些 " 冷门 " 的 3D 模型领域,腾讯却迅速在国内较早形成产品规模化。这背后的驱动力,似乎来自那些腾讯最赚钱的业务。
" 腾讯在游戏、影视、动漫等业务都会用到 3D 建模,为混元 3D 模型的发展提供了需求场景。" 据郭春超介绍,已经有数十个游戏的项目组在使用混元 3D 的模型能力。一位腾讯方面人士向字母榜表示,这其中就包括《元梦之星》等主力产品。
" 越来越多的游戏开发者、3D 打印企业及专业设计师采用混元 3D 模型来生成数字资产。" 在刚刚发布的腾讯 Q2 财报中,提到混元 3D 系列受到业内认可的现状,对于模型的技术水平,财报中的描述为 " 领先行业的几何精度、纹理真实度、指令与 3D 对齐能力。"
另一方面,"3D 世界模型 " 是 3D 生成大模型中的新锐领域,直到去年才在业内崭露头角。去年年底,"AI 教母 " 李飞飞创业公司 World Labs 展示了一图生成 3D 世界的 AI 系统,随后,谷歌 DeepMind 也发布了可通过单张图片或文字描述,生成 3D 场景的大型基础世界模型 Genie 2,并于上周更新至 Genie 3。
Genie 3 能以每秒 24 帧的速度实时导航,并以 720P 分辨率保持几分钟的一致性。不过,和混元 3D 世界的技术路线不同,Genie 3 更侧重于打造一个动态、多帧一致的交互式模拟世界,可以逐帧生成一个实时交互 3d 场景,但并不具备像混元 3D 世界那样导出 mesh 场景的能力。
事实上," 世界模型 " 并不是一个新鲜概念,早在上世纪 90 年代开始,就已在机器人导航工具领域应用。而进入大模型时代后,由人工智能驱动的世界模型,已经逐渐在包括具身智能、AR/VR、游戏影视开发等领域内,发挥基建性的作用。
" 它既可以复刻一个虚拟的世界,去创造一个虚拟社交 / 游戏的场景,也可以创造一个模拟真实场景、比如展览会等复制现实的形态。" 谈及 3D 世界模型给未来提供的想象空间,郭春超提供了他的思考。
为什么腾讯要瞄准 3D 模型赛道?3D 世界模型真的能给游戏 / 动画行业带来产业革命吗?日前,在深圳的一个炎热午后,郭春超向字母榜回应了上述问题。
" 在这个行业内,只要一中断,就在业界没有声音了。" 在郭春超看来,想要在新领域站稳脚跟,对新技术的持续跟进和投入。这样的观点在业内并不缺少案例, Meta 早在去年就发布了 Meta 3D Gen,一度处于业内领先的水平。但随后 Meta 并未持续在 3D 生成领域发力,更新节奏一度中断,直到今年 5 月才推出 Meta 3D Gen2.0。
" 一个模型团队需要持续交付出好的东西,如果有一个阶段没有交付出来,后面可能就要还‘技术债’。" 总结混元 3D 团队的发展历程,郭春超这样说道。
|对话|
3D 大模型,正在前半程奔跑
字母榜:和其他类型的大模型不同,3D 生成模型是大众用户感知相对较弱的领域。作为资深从业者,你能简单总结一下目前 3D 生成所处的阶段吗?
郭春超:3D 模型是一个发展相对较新、较晚的领域,大约在 2024 年业界才开始加大投入、今年才看到商业拐点并爆发。相比之下,LLM(大语言模型)从 2022 年就出现了比较成熟的产品,比如 GPT3.5 的出现。现在所处的阶段,可以类比在 LLM 中,GPT2-GPT3 之间并接近 GPT3 的一个状态。
字母榜:你是说,3D 生成模型还在一个比较早期的阶段?
郭春超:是的。现在属于是前半段赛程,在 3D 资产生成领域,希望到年底能做到类比 LLM 中 GPT3.5 的水平。
字母榜:在 3D 模型领域,腾讯是国内走得比较快、做得也比较多的一家企业,而其他国内头部企业似乎没有将 3D 模型作为主要方向。为什么腾讯会瞄准 3D 模型赛道,这背后有怎样的战略考量?是否有来自公司内部的场景或需求,在驱动你们做这个事情?
郭春超:我们主要围绕两个大方向进行布局。一个是业界的技术发展趋势,另一个是我们腾讯的业务需求。在技术发展趋势上,过去一年中,业内 3D 模态的发展速度非常快。国外企业像 Meta、Google 都在 3D 模型领域有重点投入,3D 模态对我们理解三维物理世界必不可少。
从自身业务布局角度而言,腾讯在游戏、影视、动漫等业务都会用到 3D 建模,为混元 3D 模型的发展提供了需求场景。至于国内其他的企业,在这方面可能也有布局,但不一定像腾讯投入这么大。
字母榜:有没有混元 3D 团队与上述内部业务合作的具体案例?哪些团队和混元 3D 业务的关联是最紧密的?
郭春超:比如在游戏板块,我们已经合作了多个团队,但由于保密原因不能公开。不过,已经有数十个游戏的项目组在使用混元 3D 的模型能力。
另一方面,我们和腾讯云是内部合作关系,腾讯云会把混元 3D 的一些能力赋能到外部。比如说设计 Agent Lovart,以及 3D 打印品牌拓竹科技、创想三维等。
字母榜:在迭代模型能力的时候,你们会参考内部团队的意见或需求吗?
郭春超:这个肯定会的。基本上我们会把很多业务共性的需求汇总起来,作为后续研发方向的指导。
AI" 造 " 世界的抽卡难题
字母榜:今年 1 月,3D AI 创作引擎 2.0 上线时,你曾表示:"3D 模型生产的视觉合格率,仅用一年时间就从 20% 提升到 60% 的水平。" 而混元 3D 世界模型的生成场景要更复杂,目前该模型生成质量符合你的预期吗?
郭春超:世界模型目前还处于早期阶段,可能比混元 3D 1.0 当时所处的阶段还要再早一点。单个物体生成,模型输出的就是单个资产,像一个人、一张桌子子,可约束的条件相对较多。
但世界模型是一整个开放 3D 世界的生成,有真实的、有虚拟的;有自然的、也有室内的。所以它的生成难度较高,涉及空间稳定性、物理规律等影响因素也更多,因此它的发展可能需要更长时间。
字母榜:如果要量化混元 3D 世界模型的合格率,你认为能达到多少?
郭春超:不同的任务不一样。如果是简单的一个展厅,只是进入这个场景浏览一下,目前能做到 30%-40% 的合格率。如果有更高品质的要求,比如说在自动驾驶场景,或者高品质游戏的搭建,那以目前的模型能力,可能连 10% 的合格率都做不到。
字母榜:说起合格率的问题,背后其实有一个可控性的因素。相比物体 3D 模型,3D 世界模型的生成任务更复杂,对可控性要求是否会更高?
郭春超:关于可控性问题,本质上是模型能力能不能稳定激发出来。很多时候大模型在使用中需要 " 抽卡 "(多次生成),通过强化学习等手段,我们希望把 " 抽卡 " 的能力稳定下来,大幅提高了可控性。
而对于 3D 世界模型而言,提高生成的稳定性是更复杂的工程,我们需要从数据端、模型架构、预训练策略、后训方法(包括 SFT、强化训练等环节),系统性的都 " 加固 " 一遍,最终才能逐步提升。
此外,在产品层面,我们后续也会逐渐降低用户使用门槛,比如说帮助用户去做更多的 prompt 改写,亦或者提供更多模态的输入,例如 " 文 + 图 " 或 " 文 + 多张图 ",使其可控性能更契合用户的想法。
字母榜:在今年早些时候,腾讯的游戏制作人王智刚老师曾表示,面数控制能力对游戏研发来说是至关重要的,某些游戏项目需要的 3D 模型可能只有几千面,但一些大模型上来就是几万面。而相比 3D 物体生成,3D 世界生成的复杂性会更高,针对这一问题你们是否有进展?
郭春超:针对如何控制 3D 世界模型的生成文件大小,我们一直在优化。最开始使用了 3D 高斯泼溅技术,但那会导致文件很大,后面我们将其转成了面片的形式,压缩了几十倍的大小。
未来,相信随着业界基建的发展,更好的渲染方式、更好的引擎出现,以及伴随着模型层面的迭代,以及伴随着模型层面的迭代,能把这个问题更好地解决。
字母榜:目前,网页版的混元 3D 世界模型包含两种生成模式,前一种是基于文本 / 图像,生成一个全景图式的 Skybox,后一种则是基于全景图去生成 3D 世界。不过,目前在网页端,即使生成了一个 3D 网格世界,能够探索的范围也很小,为什么要做这样的限制?
郭春超:这是因为在纯 3D 的场景里面,如果想要大范围探索,会涉及到很多参数的设置,比如说哪里该有空气墙,哪里能进去,还是需要有专业人士进行进一步的调整。
目前,无论是创作 3D 单体还是 3D 场景,要打包到引擎当中去开发成一款游戏,还是有一定的专业性。在 3D 世界模型的 1.0 阶段,我们更多的是帮助创作者,去降低制作这些场景资产的门槛,但是还不能 100% 替代人工。
下一代 3D 模型:交互性 + 真实性
字母榜:行业也有类似的产品,宣称可以实时生成游戏世界。这是某个海外团队的产品 demo,和混元 3D 世界模型对比的话,你认为这两个产品的技术路线有什么差异?
郭春超:看了一下演示,他们可能采用的是视频生成的模式,本质上是预测画面的下一帧。演示中的人物形象是一直往前走的,如果走了一会再回头,会发现后面的山或者其他素材会消失。事实上,因为视频生成数据量非常大,目前视频生成技术还不能彻底进入游戏的管线。
字母榜:不过实时生成游戏世界的理念,最近在业内热度还蛮高,混元下一步会有这种想法吗?
郭春超:下一步,我们探索会结合 3D 和 2D 场景下的几种模态,推出一个 World Play 的交互模型,预计在今年下半年推出。这个版本有望既解决了 2D 稳定性的不足,又解决了 3D 生成多样性的不足,把两者的优点结合起来。
图注:混元世界模型 1.0 应用概览图
字母榜:此前你曾表示,3D 生成模型的发展还面临一些挑战。其中之一是数据的不足,在 3D 模型领域只有千万量级的数据,并且没有被充分的利用。目前你们在数据利用层面是否有新的进展?
郭春超:是的。我们目前用了大量的图和视频的场景,用来缓解了 3D 素材产能不足。尤其是大量的视频场景,可以转化为 3D 信息,进而指导我们去做三维世界的生成。而且最终生成的 3D 世界,既可以以 3D 的形式保存,也可以渲染成视频,得到一个视频或某一帧图像。
当然,在纯 3D 文件领域,我们基于很多游戏资产等内容,半自动化搭建了很多 3D 场景。所以,在混元 3D 场景(世界)训练中,既用到了图像、视频,也用到了很多原生 3D 场景。相比此前的 3D 物体模型,在数据的丰富度有了较大提升。
字母榜:我们也留意到了前段时间发布的 " 混元游戏视觉的生成平台 "。混元 3D 系列该平台上也扮演了比较重要的角色,这是混元 3D 业务在应用层面规划的一部分吗?
郭春超:那个游戏平台更多的是我们针对游戏行业做的第一步的解决方案,它会持续迭代,后面我们也会有更多的游戏相关的功能加入到里面,形成一个更完整的游戏 Paas(平台及服务)解决方案。
我们会把游戏管线里面达标的、能够符合工业化生产标准的能力,集成到游戏平台里面去。但如果是还处于前期探索阶段的能力,我们会先研发一段时间,达到工业化水准时再搬进去。
字母榜:按照你之前的评价,混元 3D 世界模型似乎是你说的后者,离工业化还有些距离。
郭春超:距离游戏管线是这样,还需要一段时间。如果只是用在一些 VR 的观看场景,可能已经部分可用了。
字母榜:混元 3D 世界模型 2.0 的一些优化方向,能不能透露一下?
郭春超:我们的 2.0 会在真实世界场景呈现上进行比较大的投入。因为目前的 1.0 更多聚焦在虚拟世界生成上,但是现实中也有很多应用场景是需要真实感的,比如做一个线上的展览会,想让人有身临其境的感觉,那就需要提升模型搭建真实场景的能力。
字母榜:近期 WAIC 上腾讯也同步了一些具身智能的进展,其中有提到 " 多模态感知 " 这个板块,这一部分会有混元 3D 能力的介入吗。
郭春超:新推出的混元 3D 世界模型暂时没有在具身智能里面应用,但是我希望后面能提供 3D 的场景或者是世界生成的能力,包括刚刚提到的世界模型 2.0,能够更多地去赋能具身智能场景。
开源拥抱未来,思考星辰大海
字母榜:回顾过去 9 个月,混元 3D 系列陆续发布并开源了多款模型,此前还更新了一个面向专业设计领域的 Hunyuan3D-PolyGen。在规划这些细分模型场景,或者说模型产品矩阵时,你们考虑的因素有哪些?
郭春超:我们就主要考虑的是两个大的方向。第一个大的方向,是怎么做好当下。第二个大的方向,是怎么根据技术发展去拓展未来。
像我们现在做的 3D 资产的生成,更多的是服务于当下的业务需求。而着眼于未来,像近期推出的混元 3D 世界模型,可能短期内无法带来天翻地覆的变化,但随着技术的完善和成熟,未来它一定能 " 革命 " 掉很多东西。从创作方式到工业流程生产的方式,都是可能被 " 革命 " 掉的,我们发布开源就是围绕这两个思路来做的。
字母榜:3D 世界模型 1.0,目前看起来还是有点投石问路的意思。
郭春超:目前还处于比较早期,它会在部分场景,在 VR 或者是一些大家做原型场景的验证有用。但是很多事情是需要大家先把这个生态给做起来,让开源社区活跃起来,才会有更多研究者进入到这个领域里面。
郭春超:我们开发团队和社区是一个双向奔赴、互帮互助的状态,社区里的开发者能够基于我们发布的技术成果进行改进,降低他们的研发门槛。比如说一个开发者是研究世界模型领域的,或者是做自动驾驶领域的人,就能比较轻松把这个用起来。
如果没有开源,没有去和社区交流,我们靠闭门造车是空想不出来的。他们也给了我们非常多的信息输入,因此我觉得开源社区是一个双向共赢的事情。
字母榜:所以其实大家都非常渴望拥抱新业态,哪怕面对的是一个还不够成熟的产品。
郭春超:是的,如果一个事情已经到了商业化的拐点……
字母榜:那就该闭源了?
郭春超:(笑)这个问题我就不多做评论,但是如果到了 100% 商业化拐点,可能业界研究的人就比较少了。举个例子,就像手机的人脸识别已经非常成熟,可用率也很高,再做这个算法研发 ROI 就十分有限。所以整个大模型界研究这个领域的人就比较少了,研究者的热情更多是探索 AGI 怎么实现,思考一些星辰大海的领域。
字母榜:回顾过去 9 个月,虽然时间不长,但不管是在模型数量还是生成质量上,混元 3D 系列迭代得非常快,这背后的原因是什么?
郭春超:核心是做大模型三要素:算力、数据、人才,我们在这三个方面都相对做的比较好。同时依托混元大模型这个平台,包括公司层面上也给了混元特别大的支持。把三要素凑齐,是我认为能做成的第一个原因。
第二个原因是团队组织形式,我们团队非常年轻且国际化,团队博士比例大约占 2/3,基本上都来自于海内外名校。此外,我们团队一直坚持工业化的打法,在团队组织和运作上都是保持非常 " 卷 " 的状态。我认为以上两个方面是能够让这个模型技术快速迭代的最大原因。
登录后才可以发布评论哦
打开小程序可以发布评论哦