量子位 06-14
腾讯开源最强3D生成模型,消费级显卡就能跑
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

就在刚刚的 CVPR 上,鹅厂 3D 生成模型混元 3D 2.1 正式宣布开源!

它可以紧跟潮流,细腻地呈现出当红炸子鸡 Labubu。

也可以走复古路线,生成纹理精致的青铜器。

总之相比于前一代 2.0,混元 3D 2.1 主打的是几何与纹理的双重优化。

特别在纹理贴面上有比较大的优化,可达到当前开源 3D 模型中的 SOTA。

比如这个金属质地的葡萄型摆件,2.1 和之前 2.0 的质感和光泽对比非常明显:

并且混元 3D 2.1 的训练代码、模型权重、数据处理流程全部开源,支持一键部署,开发者还可以自主精调。

据腾讯介绍,这是首个全链路开源的工业级 3D 生成大模型,并且达到了闭源级水平,同时还可适配消费级显卡。

主打几何与纹理双优化

如开头所述,混元 3D 2.1 主打的是几何与纹理的双重优化。

几何决定了建立出的模型在形状上的精度,纹理则还原模型表面的颜色、光泽和细节表现。

混元 3D 2.1 可生成基础颜色、金属度、粗糙度等指标各不相同的贴图,同时还支持皮革、木质、金属、陶瓷等多种复杂材质的高质量渲染。

比如这组青花瓷制成的小船,可以看到右侧 2.1 版本生成的结果光泽更好,底座的纹路也更加细腻,釉面上的青花图案分布也更为合理。

对于同样的物体,搭配不同的材质就能呈现出不一样的效果,比如下面的金属老虎和玉雕老虎,都栩栩如生。

还可以在同一个模型中呈现不同的质感,比如这组 " 吹号角的僧人 " 当中,不仅可以看到人脸上的皱纹更加清晰,还能看到号角的金属感更强。

衣服没有了过度的反光,衣襟的图案也更清晰,甚至手中杯里的水看上去也更加自然了。

模型的细节和图案的复杂程度,也可以精致到手办级别。

技术层面,在混元 3D 2.0 的基础上,混元 3D 2.1 模型进一步强化了 " 几何 - 纹理解耦 " 架构。

基于 DiT 几何架构,混元 3D 2.1 优化了细节建模,使网格精度更高,具备更好的形状一致性,以便更好进行后续的纹理映。

同时,混元在 3D 开源模型中引入 PBR(基于物理的渲染)纹理生成技术。相较传统 RGB 贴图技术,PBR 通过模拟光线与材质的物理交互,提升模型在不同光照环境下的视觉一致性。

相比于 TexGen 等其他模型,以及混元 3D 之前的 2.0 版本,新版混元 3D 模型的材质还原能力均达到了最佳水平。

在用户盲测中,混元 3D 2.1 的 PBR 纹理相较于 RGB 贴图,质感胜出率高达 78%。

另外,PBR 材质的标准化特性也使其兼容主流渲染引擎(如 Unreal Engine、Unity),更加容易在其他平台中复用。

模型代码数据全部开源

混元 3D 2.1 提供了模型权重、训练代码和数据处理流程的全链路开源,开发者可以自由微调、二次训练或优化。

配置方面,混元 3D 2.1 适配于消费级显卡,并且提供了详细部署和使用教程,开发者可以轻松上手。

2024 年 11 月,腾讯混元发布并开源了首代 3D 生成模型以来,今年 1 月,混元 3D 2.0 在文本一致性与几何精度上超越了主流模型。

现在的 2.1 版本,进一步提升了 3D 模型的质感,让 AI 生成的 3D 模型离 " 真实 " 又近了一步。

正如腾讯混元 3D 负责人郭春超所说:

混元 3D 2.1 的全面开源是一个新起点,期待与全球开发者、创作者及研究者携手,共同打造更加繁荣的 3D 开源生态。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 腾讯 物理 老虎 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论