智东西 03-19
1秒钟生成3D模型!腾讯混元甩出5款开源3D模型,自研架构加速效果超30倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 | 陈骏达

编辑 | 心缘

智东西 3 月 19 日报道,今天,持续 2 天的混元 3D 开源日活动收官,腾讯混元一次性开源了 5 款全新的 3D 生成模型。其中,运用了腾讯自研 3D 生成加速框架 FlashVDM 的 3 款模型,实现了秒级 3D 资产生成,较今年早些时候开源的 Hunyuan3D-2 版本提速 30 倍左右。

▲左侧的 Hunyuan3D-2 Turbo 正高速生成 3D 模型

除了生成速度的提升之外,本次腾讯混元开源的 3D 模型还在贴图细节、材质表达上有明显提升。基于物理渲染(PBR)功能背后的模型从测试版升级到正式版,能让 3D 模型在渲染过程中更加真实,符合物理规律。

▲腾讯混元 3D 模型开源页面

面向创作者,腾讯自研的 3D AI 创作引擎迎来升级。新增的多视图输入功能可提升创作过程中的可控性,模型 3D 智能减面功能则可以降低模型的渲染压力。这一引擎还可以作为插件,直接在 3D 编辑工具 Blender 中生成 3D 资产。

现在,这一创作引擎已经支持了更多主流 3D 格式,可直接 3D 打印,也可将 3D 生成结果作为视频和动图分享,满足不同类型用户的使用需求。

体验链接:https://3d.hunyuan.tencent.com/

开源地址:https://huggingface.co/spaces/tencent

一、半秒钟生成 3D 模型,计算量暴砍超 95%

本次开源活动中最大的亮点便是实现秒级 3D 资产生成的 3 款 Turbo 加速版模型,包括 Hunyuan3D-2 Turbo、Hunyuan3D-2mini Turbo 及 Hunyuan3D-2mv Turbo。

这 3 款模型均采用了腾讯自研的 FlashVDM 通用加速架构,主要适用于在端侧快速生成 3D 资产,Hunyuan3D-2mv Turbo 进一步支持了多视图输入。FlashVDM 这一架构不仅能用于混元 3D 模型,也兼容大部分其他 3D 生成模型。

采用 FlashVDM 加速架构的模型,能将显存占用降低到 5GB 以内,生成时间缩短到 1 秒以内,兼容 MacOS、Windows 等操作系统,英伟达 4050、3050、2060、1070 等显卡均可以快速运行,若设备没有配备显卡,也可以在搭载 M1 等 CPU 的设备上流畅运行,获得比较合理的运行速度。

这一加速究竟是如何实现的呢?混元团队分享,3D 模型的生成就好比堆积木,VAE 解码是将画面分为多个积木,而将积木组装起来的流程便是 DiT 采样,上述两个环节占据了生成过程中超过 99% 的计算负载。

目前,主流 3D 生成模型采用 Vecset 架构。以采用这一架构的 Hunyuan3D-2 为例,生成一个 3D 模型大约需要半分钟。经过 FlashVDM 加速后,Hunyuan3D-2 的生成耗时最短可以达到 1 秒钟,而 Hunyuan3D-2 mini 模型生成耗时最短可达半秒钟。

在 DiT 环节,FlashVDM 的渐进式流蒸馏技术将标准版模型几十个推理步骤浓缩至个位数。在 VAE 环节,层次化体素解码技术将体素查询量减少了 95%,动态 KV 选取降低 30%,在与高效网络设计的结合后,计算量还可以进一步降低。

加速并未对模型的生成效果带来明显影响。在专业创作者的盲测中,仅用 5-8 步实现模型生成的 Turbo 模型,与未经加速的原版模型相比,可比率达到 90% 左右。

混元团队也分享了他们开发 FlashVDM 的原因。一方面,艺术家对 3D 模型的生成质量和可控性有一定要求,但在创作过程中,艺术家也需要有即时的反馈,才能快速迭代设计。在复杂场景中,如果能将单个模型的速度从 30 秒 -60 秒降低到 1 秒,将会极大地节约创作时间。

二、随手拍可生成 3D 手办,支持 3D 打印主流格式

腾讯混元 3D AI 创作引擎在开源日中迎来一系列升级。Web 端多视图功能背后的模型 Hunyuan3D-2mv,轻量版模型 Hunyuan3D-2mini 相应开源,而完整版的 Hunyuan3D-2 已经于今年稍早时候开源。

首先是多视图功能,这一功能支持用户上传 2-4 张标准视角图片,从而生成高精度、高质量的 3D 模型。

多视图模型提升了用户对生成结果的可控性,针对游戏制作、3D UGC 创作等场景,可以大幅降低 3D 设计师从多视图原画到三维模型的制作成本。

在直播活动的实测中,测试人员用手机摄像头拍摄了随意放置在纸杯上的腾讯企鹅公仔,并上传正反面照片,模型在 1 分钟之后便给出了这一场景的 3D 建模。

▲左图、右图为手机实拍,中间为 3D 模型

腾讯混元 3D AI 创作引擎还引入了 3D 智能减面能力。在建模过程中,AI 模型可能会将一些画面刻画得过于细致,切分为成千上万个三角面,这会给后续 3D 资产的渲染带来很大压力。

3D 智能减面可以自适应生成几百至数千面的三角面,进一步提升几何边缘平滑度,生成结果可在低面片的基础上最大化体现模型细节,让模型布线更加规整,以降低渲染难度,提升模型可用率及生产效率。

实测中,在生成桌子这类几何结构较为简单的模型上,智能减面极大地减少了模型的三角面数量。而在生成下方的的青龙 3D 模型时,智能减面会在细节丰富的部位保留更多面数,在细节不多的部位自动减少面数,实现了成本和效果的平衡。

此次升级还实现了 PBR(基于物理渲染技术)的材质生成效果提升,通过物理特性模拟技术,赋予模型更真实的颜色与材质表达。

兼容性上,除通用 OBJ、GLB、FBX 外,腾讯混元 3D AI 创作引擎现在可输出 STL、USDZ、GiF、MP4 等主流格式,无缝连接 3D 打印工具,也可支持模型快速预览及移动端实时交互,满足不同业务场景对 3D 模型格式的使用要求。

结语:多款模型获创作者好评,未来将持续升级

据腾讯混元团队分享,他们未来还将进一步提升模型和加速框架的性能。FlashVDM 目前仅支持对 3D 模型生成的加速,而未来将加入对纹理生成的支持,从模型到纹理的生成管线总耗时有望控制在 10 秒钟以内,AI 编辑功能也在研发过程中。

在腾讯混元 3D 开源日的直播过程中,有不少网友对混元 3D 模型的表现和开源决策表达了赞赏。相信无论是动漫创作者、游戏开发者等创意人士,还是 3D 模型的开发者,都能本次开源的模型中受益。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

腾讯 英伟达 开源 物理 规律
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论