3D 生成模型「上半场」,腾讯向前迈了一大步。
文 / 九莲宝灯
AI 生成 3D 模型,似乎即将进入一个新阶段。
就在这周二 ( 1 月 21 日),腾讯混元宣布开源 3D 生成大模型 2.0 版本。
去年 11 月,腾讯开源的混元 3D 1.0 版本,作为业界首个同时支持文字、图像生成 3D 的开源大模型,能力固然够让人感到新奇。但是这才过去 2 个月,他们居然就折腾出了 2.0?这么短的时间内,他们到底能有多大进步?
葡萄君很快就去体验了一下。结果真挺令人惊讶:这模型,完全是冲着当实用工具来的。
根据我个人的体验,就目前这款模型所制作的资产质量而言,说它能直接用于很多小游戏和休闲游戏,并不夸张。如果人工介入对这些模型做一些修改,或许还可以用于更大的项目。再结合它分钟级别的出图速度……细思极恐。
空口评价没什么意思,我们不妨一边体验一边聊。
01
混元 3D 有多实用?
在我看来,一款工具是否实用,分为两个点:一个是能力达标;另一个则是功能齐全,可以接入实际工作流。
官网地址:https://3d.hunyuan.tencent.com
而通过混元 3D AI 创作引擎,我们可以看到,混元 3D 生成大模型的核心能力是「文生模」和「图生模」。
从体验来看,用户只需要输入中 / 英文提示词,提供对模型主题的描述、特征、风格等 Prompt,就能快速同时生成 4 个 3D 模型,葡萄君自己实际体验的感受是,如果仅对模型做最基础的要求,那么基本上只要 30 秒左右,4 个模型就能全部生成。
在混元 3D AI 创作引擎的 Prompt 输入框下方,还提供了多个更加细化的功能。这些功能几乎都在告诉你,混元 3D 不打算只当个玩具,而是真想要介入生产。
比如用户可以选择低多边形模型生成,据官方介绍,它可以根据物体复杂程度,自适应生成几百至数千面的三角 mesh,拓扑布线更符合美术标准,更适用于游戏引擎模型渲染;
再比如用户可以选择不同纹理风格。混元 3D 还同时支持 PBR 贴图,可以通过模拟物理特性生成更具真实感的材质贴图效果。
混元 3D 在生成的过程中,也会考虑用户需求。比如生成一个 3D 角色,其他模型可能会把 3000 面平均分布在这个角色身上。而混元 3D 会考虑到在开发中,角色的动作和表现力主要来自与面部和动作,所以他会按照头部最多,上身其次,下肢最少的逻辑分配 3D 模型的面数。
如果用户采用图生模,制作出来的模型质量明显会更高。不过目前,混元 3D AI 创作引擎还仅支持单图生成模型,腾讯混元 3D 负责人郭春超表示,他们在近期还会推出多个视图生成 3D 模型的功能,可控性会有比较好的提升,更适合制作游戏资产。
混元 3D 2.0 的「实用」不仅在于让用户可以直接拿来用,同样也在于它可以让用户定制更多流程上的细节。
观察它的模型生成过程,我们不难发现,这个流程可以分为几何和纹理生成两部分。
官方表示,这实际上是因为混元 3D 实际上由多种模型组合。几何大模型由 Hunyuan3D-DiT 模型和 Hunyuan ShapeVAE 组成,专注于捕捉物体的形状、结构和空间关系,能实现超高精度的白模生成。
而纹理大模型 Hunyuan3D-Paint 则采用多视图扩散生成的方案,专注于颜色、细节和表面特征,可以基于用户输入的参考图像对生成的几何白模进行纹理贴图。它可以单独使用,用户只需要用文本或图像引导混元 3D,它就可以给输入的几何模型生成纹理。
这种二者分开的模式,可以让每个模型能在其领域内进行更深入的学习和优化,同时,几何与纹理解耦生成,也能让模型生成更精细和真实的 3D 结果。
通用风格 PBR 纹理下生成的汉堡
这个解耦的设计,也让混元 3D AI 创作引擎可以自主设计更细致的 3D 生成工作流。用户除了可以根据个人需求输入提示词或上传图片,还能调整节点生成参数,生成更加定制化、更具可控性的 3D 资产。
它还有更多有趣或实用的功能。在混元 3D AI 创作引擎上,我们除了能生成和编辑模型,以及刚才提到的单独使用纹理模型功能外,还能用草图生成 3D、头像照片转 3D 人物、制作一些简单的 3D 人物动画,甚至直接创作 3D 小游戏等。
其中,最令我注意的还是 3D 动画生成。无论是用户用混元 3D 制作的模型,还是本地上传的模型,它都可以自主进行骨骼绑定,并按照预设的多种常用动作模板运动。对于游戏开发和动画制作而言,这个功能或许能节省不少时间。
总的来说,在我看来,对于小游戏或者休闲品类,目前混元 3D 基本上已经能够胜任角色和道具类等常用模型的生成工作。
当然,它依然还没有脱离那种早期的「稚气」。在文生模的条件下,对于一些讲究对称的工业产品,或者一些细节较多的道具,混元 3D 的表现还不尽如人意。
比如要是想用混元 3D 建一个正比例的、细致的人物模型,尤其是二次元风格,不论使用文生模还是图生模,多半情况下还是只能产生一些「邪神」:
再比如让它生成一辆汽车的模型,结果往往看起来会像是一块融化的蛋糕;
不过在图生模情况下,这个问题还是能得到比较好的改善。这是我采用图生模、低多边形和 PBR 贴图后产生的结果:
角色建模方面,如果是头像或胸像,或者是一些 Q 版风格的角色全身像,结果也挺不错:
根据腾讯混元自己从定量和定性两个维度所做的评估,不论是端到端最终 3D 资产的质量,还是几何结构以及生成纹理的质量,混元 3D 2.0 均优于包括闭源模型在内的当前最先进模型。
而从整体满意度、3D 物体质量和指令遵循三个维度进行用户主观评估,混元 3D 在生成质量上也优于当前最先进的开源模型。
只能说 3D 生成大模型这个领域,目前还有比较长的路要走。不过就混元 3D 目前所能取得的成果而言,或许已经能够帮助开发者在一些细枝末节的资产上节省不少时间。
02
3D 生成模型,比赛还在上半场
实际上,混元 3D 早就已经开始在腾讯内部的一些业务和场景中开始应用,例如 UGC 3D 创作、商品素材合成、游戏 3D 资产生成等。
比如腾讯地图,他们基于腾讯混元 3D 大模型,发布了自定义 3D 导航车标功能,支持用户创作个性化的 3D 导航车标。据内部统计,这种方式相比传统的 3D 车标重建方案速度提升了 91%。
腾讯内部游戏业务也开始使用混元 3D 生成能力,混元官方称,他们生成 3D 的质量在几何布线合理性、贴图准确性与骨骼蒙皮合理性等方面,已能满足部分游戏 3D 资产标准。
腾讯某在研游戏研发制作人王智刚也分享了他的感受:「3D 环节的成本之前是以天计算,现在分钟来计算。这个东西拿出来之后,不是 100% 用,但是花一两天,把 AI 做得不够的部分做一下修补,性价比提升非常显著。」
但腾讯混元 3D 负责人郭春超认为,目前的混元 3D 还有很大的进步空间。这主要是因为相比于对话和生图大模型,目前 3D 和视频大模型的成熟度还没有到充分的拐点。
「如果说对话模型的合格率可以达到 95%,生图模型达到 90% 以上,那么 3D 生成模型的成熟度、可用性大概在 60%,仍处于比赛的前半场。」
他表示,目前这类模型面临的最大挑战,一是数据的不足,只有千万量级的数据,并且没有被充分的利用;二是 3D 模型本身相对于别的模态约束比较少,比如视频虽然也是横向在时间轴上拓展,但是很少有突变,上一帧和下一帧只有部分的像素改变,但 3D 模型做任何动作,上一个切片和下一个切片可能有很多数不清的图片,所以模型本身的挑战比较大,无论从数据而言还是从技术特点本身而言,要解决的问题都很多。
因此,当下混元 3D 计划继续在提高生成单体 3D 质量的同时,进一步扩展管线和功能上的应用,争取从量变引发拐点级的质变。
3D 生成大模型一旦产生质变,会发生什么?
或许很多人第一时间想到的,可能是会导致建模行业的萎缩。不过往好处看,这实际上或许更能推动不少中小团队的成长。
对于不少小游戏或者休闲赛道产品来说,比拼的不仅是出点子的能力,有时候更关键的是落地速度和质量。有了 3D 生成大模型的加持,对于很多原创团队来说,也就能够将自己的点子更快更好地呈现出来,具备更强的竞争力。对于一些独立游戏团队来说,也是同理。
另外,从生图大模型的发展历程来看,无论模型产出的图片品质有多高,仍然需要有专业人士来挑选和修改。郭春超也表示,「我们的目标并不是替代设计师,而是成为他们的好帮手,如果加了一些引导可以生成质量比较高的,之后再稍微的修一修,相辅相成,结伴前行,最终这件事能更好的推广起来」。
此前,米哈游蔡浩宇对 AIGC 时代游戏行业的发展预测,曾引发了不少争议。不过在我看来,相比于如今中小团队的生存困局,AI 或许反而能够成为他们翻盘的胜负手。或许在未来,无论何种规模的团队,都会因此站在同一起跑线,通过更纯粹的创意品质,而非资金投入来一决高下。这样一来,产业会变得更好吗?我们难以预测,但我希望事情最终会偏向那一美好的可能性。
游戏葡萄招聘内容编辑,
登录后才可以发布评论哦
打开小程序可以发布评论哦