作者 | 陈骏达
编辑 | 心缘
智东西 3 月 19 日报道,今天,持续 2 天的混元 3D 开源日活动收官,腾讯混元一次性开源了 5 款全新的 3D 生成模型。其中,运用了腾讯自研 3D 生成加速框架 FlashVDM 的 3 款模型,实现了秒级 3D 资产生成,较今年早些时候开源的 Hunyuan3D-2 版本提速 30 倍左右。
▲左侧的 Hunyuan3D-2 Turbo 正高速生成 3D 模型
除了生成速度的提升之外,本次腾讯混元开源的 3D 模型还在贴图细节、材质表达上有明显提升。基于物理渲染(PBR)功能背后的模型从测试版升级到正式版,能让 3D 模型在渲染过程中更加真实,符合物理规律。
▲腾讯混元 3D 模型开源页面
面向创作者,腾讯自研的 3D AI 创作引擎迎来升级。新增的多视图输入功能可提升创作过程中的可控性,模型 3D 智能减面功能则可以降低模型的渲染压力。这一引擎还可以作为插件,直接在 3D 编辑工具 Blender 中生成 3D 资产。
现在,这一创作引擎已经支持了更多主流 3D 格式,可直接 3D 打印,也可将 3D 生成结果作为视频和动图分享,满足不同类型用户的使用需求。
体验链接:https://3d.hunyuan.tencent.com/
开源地址:https://huggingface.co/spaces/tencent
一、半秒钟生成 3D 模型,计算量暴砍超 95%
本次开源活动中最大的亮点便是实现秒级 3D 资产生成的 3 款 Turbo 加速版模型,包括 Hunyuan3D-2 Turbo、Hunyuan3D-2mini Turbo 及 Hunyuan3D-2mv Turbo。
这 3 款模型均采用了腾讯自研的 FlashVDM 通用加速架构,主要适用于在端侧快速生成 3D 资产,Hunyuan3D-2mv Turbo 进一步支持了多视图输入。FlashVDM 这一架构不仅能用于混元 3D 模型,也兼容大部分其他 3D 生成模型。
采用 FlashVDM 加速架构的模型,能将显存占用降低到 5GB 以内,生成时间缩短到 1 秒以内,兼容 MacOS、Windows 等操作系统,英伟达 4050、3050、2060、1070 等显卡均可以快速运行,若设备没有配备显卡,也可以在搭载 M1 等 CPU 的设备上流畅运行,获得比较合理的运行速度。
这一加速究竟是如何实现的呢?混元团队分享,3D 模型的生成就好比堆积木,VAE 解码是将画面分为多个积木,而将积木组装起来的流程便是 DiT 采样,上述两个环节占据了生成过程中超过 99% 的计算负载。
目前,主流 3D 生成模型采用 Vecset 架构。以采用这一架构的 Hunyuan3D-2 为例,生成一个 3D 模型大约需要半分钟。经过 FlashVDM 加速后,Hunyuan3D-2 的生成耗时最短可以达到 1 秒钟,而 Hunyuan3D-2 mini 模型生成耗时最短可达半秒钟。
在 DiT 环节,FlashVDM 的渐进式流蒸馏技术将标准版模型几十个推理步骤浓缩至个位数。在 VAE 环节,层次化体素解码技术将体素查询量减少了 95%,动态 KV 选取降低 30%,在与高效网络设计的结合后,计算量还可以进一步降低。
加速并未对模型的生成效果带来明显影响。在专业创作者的盲测中,仅用 5-8 步实现模型生成的 Turbo 模型,与未经加速的原版模型相比,可比率达到 90% 左右。
混元团队也分享了他们开发 FlashVDM 的原因。一方面,艺术家对 3D 模型的生成质量和可控性有一定要求,但在创作过程中,艺术家也需要有即时的反馈,才能快速迭代设计。在复杂场景中,如果能将单个模型的速度从 30 秒 -60 秒降低到 1 秒,将会极大地节约创作时间。
二、随手拍可生成 3D 手办,支持 3D 打印主流格式
腾讯混元 3D AI 创作引擎在开源日中迎来一系列升级。Web 端多视图功能背后的模型 Hunyuan3D-2mv,轻量版模型 Hunyuan3D-2mini 相应开源,而完整版的 Hunyuan3D-2 已经于今年稍早时候开源。
首先是多视图功能,这一功能支持用户上传 2-4 张标准视角图片,从而生成高精度、高质量的 3D 模型。
多视图模型提升了用户对生成结果的可控性,针对游戏制作、3D UGC 创作等场景,可以大幅降低 3D 设计师从多视图原画到三维模型的制作成本。
在直播活动的实测中,测试人员用手机摄像头拍摄了随意放置在纸杯上的腾讯企鹅公仔,并上传正反面照片,模型在 1 分钟之后便给出了这一场景的 3D 建模。
▲左图、右图为手机实拍,中间为 3D 模型
腾讯混元 3D AI 创作引擎还引入了 3D 智能减面能力。在建模过程中,AI 模型可能会将一些画面刻画得过于细致,切分为成千上万个三角面,这会给后续 3D 资产的渲染带来很大压力。
3D 智能减面可以自适应生成几百至数千面的三角面,进一步提升几何边缘平滑度,生成结果可在低面片的基础上最大化体现模型细节,让模型布线更加规整,以降低渲染难度,提升模型可用率及生产效率。
实测中,在生成桌子这类几何结构较为简单的模型上,智能减面极大地减少了模型的三角面数量。而在生成下方的的青龙 3D 模型时,智能减面会在细节丰富的部位保留更多面数,在细节不多的部位自动减少面数,实现了成本和效果的平衡。
此次升级还实现了 PBR(基于物理渲染技术)的材质生成效果提升,通过物理特性模拟技术,赋予模型更真实的颜色与材质表达。
兼容性上,除通用 OBJ、GLB、FBX 外,腾讯混元 3D AI 创作引擎现在可输出 STL、USDZ、GiF、MP4 等主流格式,无缝连接 3D 打印工具,也可支持模型快速预览及移动端实时交互,满足不同业务场景对 3D 模型格式的使用要求。
结语:多款模型获创作者好评,未来将持续升级
据腾讯混元团队分享,他们未来还将进一步提升模型和加速框架的性能。FlashVDM 目前仅支持对 3D 模型生成的加速,而未来将加入对纹理生成的支持,从模型到纹理的生成管线总耗时有望控制在 10 秒钟以内,AI 编辑功能也在研发过程中。
在腾讯混元 3D 开源日的直播过程中,有不少网友对混元 3D 模型的表现和开源决策表达了赞赏。相信无论是动漫创作者、游戏开发者等创意人士,还是 3D 模型的开发者,都能本次开源的模型中受益。
登录后才可以发布评论哦
打开小程序可以发布评论哦