图像界又杀出一匹黑马!
刚刚,Luma AI 甩出全新模型 Uni-1,正面对标谷歌 Nano Banana Pro 和 GPT Image 1.5。

Uni-1 是一个统一的图像理解与生成模型。
在官方展示中,Uni-1 具备角色姿态迁移、故事板生成、草稿 + 材质结合参考生成、草稿转漫画、多参考图场景合成、草稿引导的照片编辑、UV 贴图生成、带有文字的贺卡海报生成等诸多能力。

在多项权威任务评测中,Uni-1 不仅能对标 Nano Banana Pro、GPT Image 1.5,部分任务的表现更是达到世界领先水平。
例如下面这个案例,Uni-1 精准拿捏细节,在风格一致性、元素融合度和细节还原上更胜一筹。

更令人意外的是,能实现如此惊艳效果的 Uni-1,背后并非大厂重兵投入,而是一支不到 15 人的华人研究团队。
Uni-1 发布后评论一片叫好,甚至引来谷歌 DeepMind 首席科学家、Nano Banana 项目技术负责人 Oliver Wang 点赞:

英伟达机器人主管 Jim Fan 也送上了祝福:

Uni-1 效果到底有多炸?话不多说,来看更多图。
解锁多元创作场景马年新春贺卡
先来一个简单的测试:
生成一张马年新春贺卡,要包含 " 新春快乐 "、" 马年大吉 · 万事如意 "、" 马年 二〇二六 " 等中文文字。

Uni-1 生成的贺卡文字内容完整、排版合理,马的形象和中国传统剪纸风格高度一致。相比之下,GPT Image 1.5 出现了文字混乱,Nano Banana Pro 的文字渲染也有明显瑕疵。
中文文字渲染一直是图像生成模型的 " 照妖镜 " —— Uni-1 交出了一份相当能打的答卷。
多参考图场景合成
给模型 5 张参考图——两只猫、两位男士、Luma AI 的 logo ——要求合成一个会议场景:
一只猫展示 Luma AI 幻灯片,另一只猫旁听,同时融入真人照片和 logo。

Uni-1 精确还原了每张参考图的身份特征——猫的毛色花纹、男士的五官和发型、logo 的细节——并将它们合理地组织进了同一个场景。
GPT Image 1.5 则把参考图片直接 " 贴 " 到了幻灯片上,而 Nano Banana Pro 连基本的参考图融合都没做到。
信息图提取
给模型一张地铁站实拍的 "THE BEES NEED YOU" 公益海报,要求提取为可直接用于生产的信息图——生成完整图片,不带占位框,准确还原信息图中所有可见文字。

这个任务同时考验 " 看 " 和 " 画 " 两种能力:
先要理解实拍海报里的全部信息层级,再要重新生成一张排版清晰的信息图。
Uni-1 准确还原了完整的海报布局、所有文字、正确配色,以及黑色草地剪影和正确的纵横比。GPT Image 1.5 部分文字颜色错误,底部文字全部缺失,野花种子和蜜蜂的 logo 也出了问题。Nano Banana Pro 整体布局尚可,但底部文字同样缺失。
草稿转漫画
再来看生成能力——把一张粗糙的草稿(猫站在书架上,旁边有人说 "Hey! Get down from there!")转化为专业级漫画。

Uni-1 完美地将草稿意图转化为专业漫画:分格构图、对话气泡的位置和方向都精准还原,所有细节完整保留——猫耳朵、翘起的尾巴、卷烟缸、书架上的书,甚至手机屏幕显示着 911。
钢琴前的一生:6 帧故事板
下面可能是最能体现 Uni-1 实力的 demo 之一。
要求:生成 6 帧故事板,展示同一个角色从童年到老年在钢琴前的一生。一个人从男孩到少年、到青年、到中年、到老年,最后变成一家人在台上的大合照。

6 帧画面中角色身份保持一致——同一张脸,钢琴、透视和画风不变,仅人物形象和背景随时间变化。这种跨帧的角色一致性和时间叙事能力,是当前图像模型的核心难题之一。
UV 贴图生成
给模型一个人从不同角度拍摄的三张照片(正面、左侧、右侧),要求生成一张标准面部拓扑的展开 UV 贴图。

UV 贴图是 3D 建模中的核心环节,对面部对齐、左右对称和肤色一致性要求极高。
Uni-1 生成的 UV 贴图在这三个维度上都明显优于 GPT Image 1.5、Nano Banana Pro:
GPT Image 1.5 的正脸和侧面贴图出现了不一致,Nano Banana Pro 则完全没能生成符合标准 UV 布局规范的结果。
能搞定这种专业级 3D 任务,说明 Uni-1 不只是 " 画图好看 ",而是真正具备了对三维空间结构的深层理解。
不到 15 人,凭什么?
看完效果,你可能会好奇:这些通常只在大厂才能看到的结果,到底是怎么从一个不到 15 人的团队手里做出来的?
答案或许就藏在这支团队的两位研究负责人身上。
宋佳铭,清华大学本科,斯坦福大学博士。
他最广为人知的贡献是发明了 DDIM(Denoising Diffusion Implicit Models)。如果你用过任何基于扩散模型的图像生成工具,从 Stable Diffusion 到 DALL · E,背后几乎都离不开 DDIM 带来的采样加速技术。
这篇论文至今被引用超过万次,并获得 ICLR 2022 Outstanding Paper Award。

沈博魁,斯坦福大学本科及博士。
他的代表作获得了 CVPR 2018 Best Paper Award —— CVPR 是计算机视觉领域的顶级会议,每年仅有极少数论文能获此殊荣。此外,他还入选了 RSS 2022 Best Student Paper Finalist。

一位是扩散模型加速的奠基人,一位是计算机视觉的顶尖研究者——两位华人学者联手,带领一支精锐小队,选择了一条和大厂截然不同的路线:
不是把理解和生成分开做,而是用一个统一的模型把两件事一起搞定。
统一模型:给逻辑大脑长出 " 心灵之眼 "
Uni-1 的核心理念,用 Luma 自己的话说,就是 " 给逻辑大脑长出心灵之眼 "。
传统路线下,图像理解(看图说话、物体检测)和图像生成(文生图、图像编辑)是两套独立的系统。但 Uni-1 采用了一种 decoder-only 自回归 Transformer 架构,将文本和图像表示在同一个交错序列中——既是输入,也是输出。
这意味着,Uni-1 不需要分别训练 " 理解模块 " 和 " 生成模块 ",而是在一个统一框架内同时建模时间、空间和逻辑。
更有意思的是,Luma 发现生成训练能显著提升理解能力。换句话说,当模型学会 " 画画 " 之后,它 " 看图 " 的能力也变强了——这和人类的认知规律竟然高度一致。
在推理式生成任务中,Uni-1 会在合成图像前进行结构化的内部推理:先分解指令、规划构图,然后再渲染输出。
这种 " 先想后画 " 的能力,让它在RISEBench(评估时间推理、因果推理、空间推理和逻辑推理四个维度的基准测试)上取得了世界最优成绩。

在开放词汇密集检测(ODinW-13)基准上,Uni-1 同样展现出了强劲的竞争力——要知道,这是一个传统上由纯理解模型主导的领域。一个统一模型能在理解任务上也不输专门的理解模型,本身就已经是一个重要的信号。
为什么这很重要?
把 Uni-1 放到更大的 AI 行业图景中看,有两件事值得关注:
第一,统一模型可能是下一代视觉 AI 的方向。
当理解和生成不再是两个独立系统,而是同一个模型的两面,很多过去需要复杂 pipeline 的任务——多轮编辑、参考图合成、风格迁移——都可以在一个模型内优雅地完成。Uni-1 已经在这些任务上展示了这种优势。
第二,顶尖 AI 研究不一定需要万人团队和无限算力。
不到 15 人的华人研究团队,在一个被 Google 和 OpenAI 主导的赛道上做出了世界级的成果。这再次证明:在正确的技术路线上,优秀的人才密度可以弥补资源的差距。
Luma 表示,Uni-1 只是第一步。下一阶段,这个统一框架将从静态图像扩展到视频、语音、交互式世界模拟——最终目标是构建能够 " 看、说、推理、想象 " 的统一多模态系统。
从一个不到 15 人的华人团队开始,这个目标或许并不遥远。
Luma AI 官方博客:https://lumalabs.ai/uni-1
* 本文系量子位获授权刊载,观点仅为原作者所有。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦