硅星人 13小时前
训个“逆天改命”的模型,拯救公司也顺手重塑AI 3D
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

1

2023 年,AI 行业的融资低谷年。脱胎于上海科技大学 MARS 实验室的影眸科技也遇到了自己的 " 危机 "。这家公司的两位创始人吴迪和张启煊,当时一个刚毕业,一个还是研究生。

一家已经谈好、SPA 协议都已完成的领投机构,因为当时地缘政治对投资机构的冲击而在签字前几周临时撤回投资。而影眸当时公司账上只剩下 8 个月的资金。

解决方案是有的,甚至是显而易见的:他们最早的商业化项目——那个在这家公司办公室摆放着的无法忽视的巨大球形扫描仪 " 穹顶光场 ",是一个有稳定需求的服务。它为 3A 游戏和电影公司扫描人像,每年能带来可观收入,靠它活下去没啥问题。

但团队能感觉到,元宇宙概念市场在萎缩,项目制的服务也很难规模化。而更重要的是,它并不是这家公司最想做的事情。

在最初创办这家公司时,虽然不确定具体要做什么,但年轻的创始团队的大目标是让所有人都能用到 3D,比如,做出一个 home studio。而在影眸看来,在所谓的元宇宙里,显然普通用户大多只是旁观者,但他们希望的是让每个人可以成为创造者,这最终需要靠 3D 生成,需要一次更彻底的底层技术创新。随着 AI 生成 3D 因为大模型的进步而热闹起来,这个底层技术创新指向一个全新的模型。

于是一个神奇的决定出现了:在公司 " 弹尽粮绝 " 的危机下,创始团队却决定赌一把——

训练一个当时没人做出来过的原生 3D 模型。

他们能调用的资源有限,时间上也只够选择一条路径。这基本就是一次训练机会,成功就成功,失败(训不出来)基本就没有第二次机会了。

Go big,or go home。

然后 Rodin 的训练就开始了。

2

这个模型在当时算是异类。当时做 3D 生成最主流的方向,是先通过 " 文生图 " 的模型生成各个角度的图像,再合成一个 3D 模型,即 "2D 升维 "。影眸的同行几乎都选择了这条路。

然而事实上,在 2D 图像生成大火之前,3D 领域原本的主流就是在走 3D 数据原生训练的路线。只是突然 2D 技术太强了,导致 "2D 升维 " 成了热点。

影眸脱胎于上科大。2020 年,吴迪刚读研一,张启煊还是大三,两人一起在学校里开始创业。

吴迪是上科大最早的一批学生,这所带点实验性质的年轻大学,给学生提供了独特的空间。作为学生会主席,吴迪能直接跟校领导汇报、申请经费,参与搭建实验室。张启煊在学校也闲不下来,到处打比赛,并在本科就进入了 MARS(Multi-disciplinary Artificial Reality Studio)实验室。也因此认识了吴迪。

这些计算机科学方向的学生,同时也对 Blender 等 3D 软件以及 3D 技术痴迷,当时吴迪和张启煊在学校主要在做的项目,就是那个巨大的 " 穹顶光场 ",它并非简单的相机阵列拍摄多角度照片,而是基于 " 光度立体法 "(Photometric Stereo),能在 0.1 秒内向扫描对象投射二三十种不同的光照模式,算出整个面部细微的法线信息,甚至引入 " 偏振态 " 光线来解耦高光材质,从而采集到远超传统方式的超细腻皮肤细节。

2020 年,公司成立后他们开始各种摸索,当时他们基于实验室发表的一篇 SoftGAN 的论文,做了一个画真实人物的画板产品,但起初没什么反响。后来他们换了一批二次元数据,做成了 AI 画板 APP WAND。

然后这款 app 就瞬间爆了,立刻就登上了中日两国 App Store图形与设计分区的榜首,两周获取了 160 多万用户。

来自 @taptap 发现好游戏

这给他们带来了第一波融资,在那之前,奇迹创坛的陆奇来学校参观,看过他们的穹顶,鼓励他们报了奇绩。在 APP 爆火的当晚 11 点,奇绩的人紧急联系他们,对他们说:

" 立刻跟我们签吧 "。

但他们却快速 " 抛弃 " 了这个产品。

WAND 是个像极了后来 Midjourney 样貌的产品。但在当时,他们想不出来它的商业模式。而更让他们提不起兴趣的,是这个产品背后的技术—— GAN。

GAN(生成对抗网络)在当时是主流,它通过两个网络(生成器和判别器)相互博弈来 " 伪造 " 图像,但在多样性和可控性上很快遇到了瓶颈。而影眸团队当时没有预料到的是,另一条技术路线—— Diffusion(扩散模型)即将爆发。以 Stable Diffusion 为代表的扩散模型,通过一个 " 去噪 " 过程逐步生成图像,实现了前所未有的图像质量和 " 言出法随 " 的文本控制能力,这才是后来真正引爆 AIGC 浪潮的关键。但在当时,GAN 限制了人们对图像生成技术的想象。于是在拿到钱后,他们反而 " 更逆反了 "。

他们去向陆奇要建议,对方回到:" 你们要专注,做你们最想做的事情 "。张启煊的理解是:" 你只能做一件事。"

砍掉了 WAND 项目后,他们继续专注到 " 更广泛更通用的 3D" 上。在 2021 年底,他们做出了 ChatAvatar,一个用文字描述生成 3D 形象的产品。同样,追求真实,而不是好看。这解决了 " 十几万 " 扫描费和 "30 块 " 廉价角色之间的巨大需求,也是影眸开始向 AI 产品迈出的重要一步。

3

穹顶光场、WAND、ChatAvatar,这些技术和产品研发里的经验最终都汇聚在了 Rodin 这个模型上。

2024 年 3 月,新模型终于有了内部 Demo。

训练成功了。

Rodin 模型第一次展示了原生 3D 路线的强大效果。这套名为 Clay 的原创框架希望彻底绕开行业的 " 主流陷阱 "。当时,包括业内巨头和看似引领着技术方向的实验室都采用着 "2D 升维 " 路线,这本质上是一种妥协:

它们的出发点是希望利用 2D 图像模型如 Stable Diffusion 当时取得的成果,因此选择了使用一种叫做 SDS(Score Distillation Sampling 分数蒸馏采样)的方法来让 2D 模型做 3D 生成过程的 " 老师 " ——一个 3D 数据先转成不同切面的 2D 数据,交给 2D 模型打分,然后蒸馏反馈评估最终拟合出一个 3D 资产,以此训练文字生成 3D 的能力。

但很显然,这种方式不仅计算量大、速度慢,而且由于 2D 视角的不一致,生成的 3D 模型几何结构混乱、表面粗糙,无法用于实际生产。

影眸的赌注,是 " 原生 3D" ——即模型直接在 3D 数据上训练,直接生成 3D 模型。这是一个公认更难、但理论上效果好得多的路线。他们需要在已有工作基础上,设计一个更优雅的架构。

首先是数据表达,他们选择了 "Vecset" (3DShape2VecSet: A 3D Shape Representation for Neural Fields and Generative Diffusion Models)这个研究里的方法,他们认为这个已有的研究,是 3D 数据在隐空间中的最佳表达——它像一种 " 长条形 " 的无序数据链,它恰好完美适配了 Transformer 架构。于是,在 Sora 带火 DiT(Diffusion Transformer)架构之前,影眸的 Rodin 已经在把赌注押到 DiT 上。" 我们当时叫它 Transformer with Diffusion,后来发现 DiT 火了后,我们在论文里也统一了它的名字。"

除此之外,团队也做了很多工程上的工作,他们专门开发了一套 " 数据标准化 " 管线,用来 " 重构网格 "(Remeshing)和统一来自 ShapeNet、Objaverse 等不同来源、质量参差不齐的数据。这是很关键的一步,但最初的方法需要人工标注,这本来可能是一个制约效率的大问题,但就在这时,GPT-4V 出现,标注可以由模型完成。一切再次加速。

最终它的技术细节被写进名为《CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets》的论文,这篇论文获得了 SIGGRAPH 2024 最佳论文提名,并成为 50 年来首个入选 SIGGRAPH "Real-Time Live!" 的中国团队。ResNet 之父何恺明教授在当年 MIT 的深度生成模型课程中将 CLAY 列为推荐阅读 ( 6.S978 ,MIT EECS, Fall 2024 ) 。

基于 CLAY,影眸于 2024 年中上线了全球首个原生 3D 生成大模型产品 Hyper3D.AI Rodin。

现在,原生 3D 已成为行业共识——包括腾讯混元、字节 Seed3D 在内的公司,都已采用 3D 原生技术路线。可以说,影眸定义了 3D 生成的 " 可用性拐点 "。

4

2024 年,影眸带着他们的技术成果登上了 GDC(全球游戏开发者大会)的讲台首次对外公开展示了还是 demo 的 Rodin。影眸也成为少有的被官方邀请的中国初创公司。

这次分享吸引来了行业内诸多关注,影眸将 Rodin 模型接入了拥有 5 亿用户的超级头部游戏的移动端 Runtime 环境,为其 UGC 创作赋能。

在行业中,这是一个重要的信号。它意味着影眸的 AI 模型不再是纯粹的 "Demo" 工具,而是开始被真正集成到实时运行的、海量用户的移动游戏引擎中。

玩家在游戏中使用 Hyper3D.AI Rodin 生成内容

"Production Ready" 是影眸不停强调的目标。3D 模型没有标准的 Benchmark,最终是客户自己来判断,用钱投票。这些真实产业环节里的合作,就是一张张最有分量的 " 票 "。

目前影眸的商业模式也归一到服务游戏、影视制作,以及更大一块的工业设计,整体以专业的建模场景为主。

"3D 生成对游戏公司来说是天然适合外包的业务。这是分工明确和工业化成熟的结果,所以独立的第三方服务商是有价值的。" 吴迪认为。

2024 年,在 Clay 框架和 Rodin 模型的 Demo 跑通后,影眸的融资也顺利推进。2025 年以来,他们连续完成了两轮大规模融资,前一轮由字节跳动和美团龙珠联合领投,红杉资本和奇绩创坛跟投。

2025 年 8 月,影眸再次宣布完成新一轮数千万美金融资,由蓝驰创投领投,字节跳动、红杉中国种子基金等老股东跟投。

模型的成功是基础,但这在今天已不是全部。当 Rodin 训成时,AI 3D 生成的赛道也已经迅速变得拥挤。诸多玩家相继入场,竞争显然已经进入了产品层面。

对一个普通用户而言,影眸的产品(Hyper3D.AI)是一个网页工具和一套插件的结合体。最基础的体验与 Midjourney 类似:输入一段文字或一张图片,模型就能在几十秒到几分钟内生成一个 3D 模型。

但影眸从一开始就想解决专业人士的痛点。他们的产品提供了针对不同场景的 " 模型矩阵 ":如 "Speedy"(极速预览)、"Focal"(极致细节)、"Zero"(适用于手游的低面数平滑模型)和 Defualt细节精度和表面平滑度平衡)。

影眸的 "Production Ready",就是更让自己产品真正接入产业工作流。

而这种理念最直观的体现,是他们对产品细节的偏执。其他公司的插件可能是网页的 " 阉割版 ",而影眸为 Blender 等 3D 软件设计的插件,是一个 " 超级精巧 " 的浮窗。它像 YouTube 的画中画,承载了网站的全部功能,同时又不入侵艺术家原有的工作界面。

" 我们几个核心创始人都亲自使用 Blender 等 3D 软件,自己剪视频、做渲染。" 张启煊说," 所以我们知道做这件事会遇到哪些困难,知道怎么用才方便。"

另一个最新的 " 杀手级 " 功能是BANG

( 可以插入影眸科技视频号视频 )

对于游戏或工业设计来说,一个 " 糊 " 在一起的 AI 模型无法高效完成后续的绑定和二次编辑。影眸的 "Bang to Parts" 功能,能自动将一个复杂的模型 " 爆炸拆解 " 为多个可编辑的部件。

这个功能的交互设计,也体现了他们对工作流的理解。张启煊形容:" 你点分件的时候,我先给你一张蓝图(预览图),告诉你‘我大概会拆成这样’,你不满意就点‘随机’换一种方案。觉得 OK 了,它‘啪’一下炸开来。你还可以选中炸开的某个部分,让它再生成这个部分的炸开蓝图……像链式反应一样。"

这些 " 好用 " 的表面功能,每一项都源于底层的技术创新。BANG 的背后是一套名为 " 通过生成式爆炸动力学实现 3D 资产分件 " 的原创架构。这项研究工作被计算机图形学顶级期刊 ACM TOG 收录,并在 SIGGRAPH 2025 上获评 "Top 10 技术论文速览 "。它尝试解决 AI 模型 " 只能看不能改 " 的难题。

影眸还是全行业第一个做出 "3D ControlNet" 的团队。这套控制技术并非单一论文,而是其核心生成框架的关键组成部分,其 " 可控性 "(Controllable)的理念在 CLAY 的论文中已有体现。就像 ControlNet 让 2D 绘画的 " 随机抽卡 " 变成了 " 按图索骥 ",影眸的 "3D ControlNet" 让开发者可以通过边框盒(Bounding Box)、体素(Voxel)甚至点云(PointCloud)来精准控制生成模型的形态和结构,这在专业生产领域是刚需。

最近,他们上线了 " 部分重做 " 功能,即针对不满意的部分再次重新生成,保留已经完美的部分。整体模型可控性再次大幅提升。

" 我们不会基于当年什么东西最热门来选研发方向,不会追热点,完全基于需求做研发 。所以会看到我们论文的绝对数量肯定比友商低,但从论文质量和获奖情况来看我们有优势。" 吴迪说。

" 今年在这个领域拿 Siggraph best paper 的商业化公司,也就只有谷歌、meta 和我们。"

过去这一年,在 Hyper3D.AI 平台上,Rodin 以平均每 9 天上线一个新功能的速度快速更新着,更多的商业化合作也在快速铺开。

当初那个 "Go big or go home" 的赌注,算是没有失败,而它改变了影眸也改变了 AI 3D 行业。

" 我们希望在保持朝气的前提下,在残酷的商业世界里继续摸爬滚打。" 吴迪说。

评论
大家都在看