量子位 昨天
4秒出百万面!突破千万面精度+12K高清贴图,手握数亿的3D生成公司下一局怎么打?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

今年 2 月,英伟达公开了一条内部 AI 工作流。

除了 Google、OpenAI 这些耳熟能详的名字,量子位注意到,名单里还闯进了唯一一家初创公司的产品——Hyper3D

Hyper3D 为何能收获老黄的青睐?抱着疑惑,我们查了查 Hyper3D 的最新动向。

Hyper3D 的母公司为影眸科技,团队不大,只有 60 人左右,但技术岗就独占三分之二,其中研发主力还基本全员 00 后,其算法团队每 2 人中就有 1 人获得或被提名过最佳论文。

全球第一个原生 3D 生成大模型是他们做的,如今 3D 生成赛道的 B 端 TOP 也是他们。

果然,能被老黄 pick 的产品,绝非等闲之辈。

不过,比这份成绩单更值得说道的,是它出现的时间点。

这两年,AI 商业模式正在换挡。

早期 AI 行业技术路线尚未收敛,资本 FOMO 情绪又在市场上蔓延,很多时候一个惊艳的 demo 加上一个够大的愿景,就足够让一家 AI 初创公司支撑起一轮又一轮融资。

当技术路线逐渐分野,寻找真正具有长期价值的 AI 公司成为市场共识,大家开始关注一个更为朴素的问题:谁的收入更扎实。

过去一年,企业级(B 端)营收的质量与可持续性,正逐步取代消费级用户规模,成为衡量 AI 公司长期价值的核心维度——以 Anthropic 为代表的企业级路线被广泛视为这一趋势的典型样本。

相比个人用户的随性尝鲜,以企业客户为核心的收入结构通常具备更强的黏性与盈利能力,一旦嵌入生产流程,往往是长期合作。

而影眸,更早一步和这一转向同频,提前把目光瞄准在了B 端用户pro C 用户的增长上。

所以再看它最近的两个新动作,个中意味值得深究。

其一是融资。影眸科技刚刚宣布完成新一轮数亿元融资,由凯辉基金、上海国投先导领投,老股东持续跟投。

凯辉基金长期深耕全球工业、企业服务与科技创新生态。上海国投先导的加入,也体现出国家产业资本对 AI 3D 生成技术在工业设计、智能制造和数字内容生产中长期价值的认可。

这也是他们过去一年以来的第三次大额融资。在此之前,他们已连续拿到奇绩创坛、字节跳动、红杉中国、美团龙珠、蓝驰创投的多轮押注。

另一边是全新模型 Hyper3D Rodin Gen-2.5 的发布

该模型在 3D 生成领域,首度引入了类 LLM 的 Thinking 机制,模型可以根据计算预算自适应决定生成结果的复杂度,覆盖从快速草稿到极致精模的不同场景,4 秒即可生成百万面级模型。

它还是全球首个突破千万面级精度上限的 3D 生成模型,Rodin Gen-2.5 的 Extreme-High 模式搭配同期上线的首个 12K 原生 3D 贴图模型,能够真实还原毛孔级皮肤细节,模型生成质量断代领先。

模型上线首月,影眸订阅用户与年经常性收入(ARR)  环比增速扩大了400%

据公司提供的数据,约 80% 的收入来自海外市场,其积累的 B 端客户营收超过同赛道其他公司的总和,客户覆盖游戏、电商、具身智能、空间计算等多个高价值场景。

从英伟达创始人黄仁勋CES 主题演讲的 3D 资产生成工作流,到全球第二大家居建材零售商Lowe ’ s遍布 1750 家门店的数字化项目,再到OpenAI首届 Codex 黑客松的冠军作品—— Hyper3D Rodin 已出现在这一时代最具标志性的技术现场。

在工具链层面,Unity AI Beta、OctaneRender 等专业引擎,以及 Canva、Figma 等设计平台,亦先后接入其能力。

这类高标准、高密度的专业场景对生成精度、可控性与工程化适配的要求极为严苛,印证了产品在最高标准产业流程中的实际可用性。

实测:4 秒百万面到 80 秒千万面,3D 生成天花板

今年 1 月份,Hyper3D 因为上线「3D 版 Nano Banana」,也就是 Rodin Gen-2 Edit 版本,而广受关注。

它能够基于自然语言完成任意 3D 模型的局部编辑,操作逻辑也很简单,输入文字指令,AI 会自动框选需要编辑的区域,并编辑该模型。

至今影眸都是独家掌握该项技术的公司。Rodin Gen-2.5 是继 Rodin Gen-2 Edit 之后的又一力作,也是迄今为止最具可控性与实用性的一代模型。

进入官网(https://hyper3d.ai),把产品模式切换到 3D,即可体验到全新的 Rodin Gen-2.5,支持直接生成和二次编辑两种玩法。

生成模型可以选择从 Extreme-Low 到 Extreme-High 的五种模式,用户可以自行决定生成效果和思考时间,思考时间越长,生成精度越高。

对于专业用户来说,还可以选择外形控制 3D ControlNet,包括边界框控制、体素控制和点云控制。

比如我们随手将一张 AI 生成的小怪兽照片丢进去,设置思考时间 4s。

这是 Rodin Gen-2.5 的Extreme-Low 模式,可以秒出基础资产,利于快速制作简易资产、批量测试实验,也很适合游戏等各类场景中的 UGC 玩法。

生成速度非常之快,几乎不用等待。同时生成效果也令人惊喜,直接在模型层面生成了丰富的毛绒质感!

我们再把思考时间调至 80s,可以明显看出,Extreme-High 模式下可以更为精准地还原 3D 资产的纹理细节,毛绒质感更胜一筹,毛流感明显,蓬松感也可以直接生成,整体模型更加精细,做到 360 度全覆盖。

加上材质后,对比更加明显:毛发蓬松、颜色渐变层次丰富,每根毛发的细节都清晰可见,眼神细节也非常逼真,还原度很高。

再试试人像效果,Rodin Gen-2.5 对眼角细纹、面部褶皱、皮肤肌理的刻画细腻自然,不会出现生硬抹平、细节丢失的问题。

无论是写实真人形象,还是影视级数字人像,都能保留人物独有的面部纹理特征,让 3D 人像摆脱 " 同质化塑料感 ",拥有真实生动的视觉表现力。

各类材质的模拟也不在话下。

古风兵器生成效果惊艳出众,完整还原古剑繁复锻造细节。剑刃纹路、雕纹镂刻、护手雕花、剑柄磨损肌理层次分明。

模型原生高面数几何结构,棱角锋利不糊边,完美适配国风短片、游戏素材、线下演示内容。

体验下来,Rodin Gen-2.5 主要升级在三个方面:

千万面级的几何精度

千万面就好比于拍照时存的 RAW 格式,文件体积更大,但胜在信息全、后期改起来也自由。

倒不是每个行业都用得上这么高的面数,但有了这块高精度的母版,能折腾的空间一下就大了。

比如游戏美术可以先在高模上把细节抠到位,再烘焙到一个轻量化版本,进了游戏既跑得动又看着精致;影视和高精度工业建模也是这个套路,先出母版,再按不同场景往下派生。

换言之,更高的面数意味着更高的后期自由度

更可控的生成速度和质量

快和精,看起来是矛盾的。Rodin Gen-2.5 的解法是让模型学会先想再做。

这就是它首次引入类 LLM Thinking 机制的理由。和大语言模型一样,模型在生成前会先思考,思考时长从 4 秒到 80 秒可控:

赶时间出草稿,就用 4 秒的极速模式;要雕塑级的成品,就给它 80 秒慢慢磨。

一共给了五档思考强度(4s、9s、20s、40s、80s),从极速草稿到极致精模,用户可以自己挑。

这也是这一代产品理念最核心的一点,不替用户做决定,把选择权交还给用户。

12K 最强原生贴图

所谓原生,指的是模型表面的颜色和材质不是贴上去的,而是从模型本身自然" 长 "出来的。

效果上,它能做到 360 度无死角覆盖,不会出现某个角度纹理缺失,还能真实还原皮肤、金属、布料这些质感,支持标准的 PBR 材质。

同时可以一键预处理光影效果,精准保留视觉细节,避免纹理模糊、破损、失真等问题。

另外,更难得的是成本。由于团队对底层算法架构的理解足够深,模型的生成和推理效率远高于行业平均水平。

又快又准又省,Rodin Gen-2.5 堪称这一代 3D 生成的全能王者。

Hyper3D 赌了条最难走的「非共识」道路

事实上,这并不是 Hyper3D 第一次走在行业前面,要厘清 Rodin Gen-2.5 的来时路,还得把时间拨回至两年前。

2024 年以前,原生 3D的行业共识还远没有像现在这般普遍,因为数据限制,行业内更主流的做法还是2D 升 3D,简单来说就是先合成多视角的 2D 图,再重建成 3D。

听上去是个取巧的捷径,但凡事有利有弊,这里始终存在一个绕不过去的硬伤:

即使拥有再多的 2D 视角也无法完整描述 3D 内容,而且 2D 转 3D 必然会丢失大量信息,导致模型容易破面、拓扑混乱,早期甚至还经常出现多头的诡异结果。

凭借多年的know-how经验,影眸率先意识到此路不通,并大胆探索原生 3D 的技术路线。

但这条路要比 2D 升维难得多。

首先是数据,数据对大模型的意义不必多言,就以图像、文本大模型为例,它们的数据都是千万量级起步。反观当时的 3D 数据呢?可用的只有 80 万,清洗完更是只剩 50 万。

就这么点数据,还想做原生 3D 大模型,在当时看来几乎是天方夜谭。

更何况,做这个决定的,是一家彼时账上只剩两三百万现金的公司。几乎没人看好,但他们还是做了。

后面的结果大家也都知道了,2024 年,影眸发布了全球首个三维原生大模型 Rodin Gen-1,效果实现代际领先。

Hyper3D 让行业清晰认识到原生 3D 的可行性,在验证这条路之后,行业主流随即开始技术路线的集体转向。

但押对一次可以说是运气,Hyper3D 在接下来的几年间频繁押对,甚至说引领行业趋势,靠的就是技术底气。

成立六年,影眸团队发表了 30 多篇顶会及期刊论文,其中70%都被转化进了实际产品。在图形学顶会 SIGGRAPH 中,一共斩获 3 次最佳论文及提名。

2025 年同期摘得最佳论文的商业公司,全球就只有三家,谷歌、Meta 和影眸,其含金量可见一斑。

另外,拿下 SIGGRAPH 2024 最佳论文提名的CLAY(《CLAY:用于创建高质量 3D 资产的可控大规模生成模型》),正是 Rodin Gen-1 的底层框架。

而到了 Rodin Gen-2,与它一同亮相的,是另一项同样入选顶会的智能分件研究BANG(《BANG:通过生成式爆炸动力学实现 3D 资产分件》)。

可以说,Hyper3D 是把尖端科研产品化做到了极致,每一次做出来的东西都刻进了模型的底层代码,最终延伸出最硬的一块壁垒:强可控性

从最早的 3D ControlNet,到能把模型自动拆分成多个部件、拆完还能继续拆的递归分件技术 Bang to Parts,再到用自然语言直接改模型的 3D Editing,Hyper3D 的每一代模型,都在反复死磕可控、可编辑、可应用。

看似吃力不讨好,实则这恰是可控性的关键所在,可控性必须要在预训练阶段内建,训完再补几乎要等到下一代重练,这也是为什么到现在,全行业只有他们做出来了。

用影眸联创兼 CTO 张启煊的话说:

到这个节点,很难说哪个模型绝对效果百分百更好。但在可控性这个点上,我们是一骑绝尘的。

不讲故事,只做能用的东西

不止技术路径稳扎稳打,在产品商业化上,影眸也有一套自己的打法。

影眸整体给人的感觉有点像Anthropic

这可不是随便一说,这两年 AI 圈慢慢想明白一件事:一家公司到底值不值钱,看的不是用户多少,而是到底有多少人愿意真金白银为它付费。

比拼用户规模已经是过去式了,能不能从企业用户身上挣到稳定、可持续的钱,才是估值的硬通货。

Anthropic 就是这条路径的典型代表,相比短期流量撑起来的个人订阅,A 社更重视B 端客户增长,因为企业用户黏性高、盈利强,也更能支撑起资本市场的溢价。

影眸走得几乎如出一辙,打从第一天起,它就将目标群体牢牢锁定在专业用户和产业用户上。游戏、电商、工业设计、具身智能、空间计算等多个高价值场景中,用户对影眸的认可度极高。

影眸深耕 3D 科研和产业的务实态度,也为其吸引来一批业内头部 VC 机构。据官方信息,本次融资将会花在两件事上:

往内,继续做 3D 大模型的前沿探索;往外,加速核心产品 Hyper3D Rodin 在全球的商业化,落地更多垂直场景。

现在影眸已经建立起一支 3D 生成领域地表最强科研团队。

团队人员精简,但只要认准一个技术方向,配套资源就会加紧跟上,内部也不会出现赛马的情况。

团队大部分都是博士,但也有很多前沿方向会直接交给本科生来带,不凭经验,也不论资排辈,相当扁平化。

团队小而精、内部氛围自由、团队一心探索硬核技术创新——影眸就像3D 生成领域的 Anthropic,靠实力说话。他们不热衷于讲宏大的故事,只认准了一件事:做出来的东西,得真的能用。

从「不可用」到「可用」,最先迈过这道坎的是 Hyper3D。下一道去往「更好用」的,大概率也是。

官网链接:https://hyper3d.ai

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

量子位 成绩单 英伟达 ai google
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论