挑战谷歌！硅谷150人创企发新模型，性能比肩香蕉、价格便宜三成！

智东西

编译 | 杨京丽

编辑 | 李水青

智东西 3 月 24 日消息，3 月 23 日，硅谷初创公司 Luma AI 正式推出全新图像模型 Uni-1。该模型将图像理解与图像生成统一起来，因而既能思考又能创作。Uni-1 基准测试与 Google 的 Gemini 3 Pro 持平，并且在高分辨率图像生成任务中成本降低了约 10% 到 30%，空间理解能力测试得分甚至超过谷歌 Nano Banana 2 和 OpenAI GPT Image 1.5。

Luma AI 官宣图片模型 Uni-1（图源：X）

创立于 2021 年的 Luma AI 此前以视频生成工具 Dream Machine 闻名。此次 Uni-1 的发布标志着其从单一视频生成向 " 统一智能 " 方向转型。该模型最早于 3 月 5 日随 Luma Agents 创意平台一同亮相，3 月 22 日的公开发布则面向更广泛的开发者和用户。

值得注意的是，Uni-1 大胆地在底层架构上做了一次 " 换道 "，抛弃了当前主流的扩散模型（Diffusion）路线，转而采用自回归生成架构，即大语言模型所使用的 " 逐 token 预测 " 方法。这意味着，Uni-1 在生成图像时能够像语言模型一样进行推理，而非仅仅 " 降噪出图 "。一家 150 人的旧金山初创公司，正在试图重新定义 AI 图像生成的技术范式。

智东西也亲身体验了一下。我让它 " 生成一张宿命感照片，一个长发飘飘的女子身穿战国袍，配了把剑 "，输入提示词后，他会先花几秒钟分析我的需求，然后再进行创作。创作花了差不多 5 分钟终于完成了，生成的画面很有电影感，头发、衣摆随风自然飘动，服饰很有质感。整体语义理解精准、细节丰富，但是仔细看可以发现剑出现了两把，貌似有点小问题。

Uni-1 生成的图片（图源：Lumalabs）

体验链接在这里，大家也可以去试试。 https://app.lumalabs.ai/

一、告别扩散模型，Uni-1 用 " 语言模型的方式 " 画图

要理解 Uni-1 的意义，需要先理解它替代了什么。目前 AI 图像生成领域的主流方案是扩散模型，即从随机噪声出发，在文本嵌入的引导下逐步去噪，最终生成一张图像。Midjourney、Stable Diffusion、谷歌 Imagen 3 等知名模型均基于这一范式。扩散模型的视觉效果不错，但有一个根本性缺陷：它不具备真正的 " 推理 " 能力，无法在生成过程中思考空间关系、物理合理性或逻辑约束。

业界此前的应对方式是 " 打补丁 "。比如，DALL-E 3 用 GPT-4 先改写用户提示词，再交给生成模型；谷歌 Imagen 3 则依赖 Gemini 做前置推理。这些方案本质上引入了一道 " 翻译层 "，用来消除创作中的理解偏差。

X 上网友对于 Uni-1 的评价（图源：X）

Uni-1 则选择了一种完全不同的方式。据 Luma AI 的技术文档，Uni-1 采用纯解码器（decoder-only）自回归 Transformer 架构，即文本和图像 token 在同一序列中交错排列，共享传播通道，不依赖独立的视觉编码器。Luma AI 称，Uni-1 能在图像合成前和合成中进行结构化内部推理，包括分解指令、解决约束和规划构图。

在实际操作中，模型可将多张宠物照片中的动物合成到一个全新场景中，穿上学术礼服、站在写满科学图表的白板前，保留每只动物的独特特征。以往这些任务通常需要大量手动调整或后期处理。

Uni-1 技术文档中示例图片（图源：Lumalabs）

二、关键跑分：推理能力拉开差距，逻辑推理得分翻倍

基于推理的视觉编辑的基准测试工具 RISEBench 从时间、因果、空间和逻辑四大维度对图像生成 AI 进行了跑分，Uni-1 综合分 0.51，谷歌 Nano Banana 2 得分 0.50，Nano Banana Pro 是 0.49，OpenAI GPT Image 1.5 是 0.46。总分看着咬得很紧，我们可以聚焦不同维度来比一比：

空间推理：Uni-1 得分 0.58，Nano Banana 2 仅 0.47；

逻辑推理：Uni-1 得分 0.32，略次于 Nano Banana 2（0.38），是 GPT Image 1.5（0.15）和 Qwen-Image-2（0.17）的两倍以上。

五款图片生成模型 RISEBench 跑分对比（图源：Lumalabs）

在 ODinW-13 物体检测基准测试中，Uni-1 完整版得分 46.2 mAP，几乎追平谷歌 Gemini 3 Pro 的 46.3，大幅领先 Qwen3-VL-Thinking 的 43.2。值得注意的是，Uni-1 仅具备理解能力（未经生成训练）的变体得分为 43.9，而完整版提升了 2.3 分。这直接证明了一个关键假设：学会生成图像，能反过来提升模型的图像理解能力。

物体检测基准测试 Uni-1 几乎追平谷歌 Gemini 3 Pro（图源：Lumalabs）

在与 Midjourney v8 的对比中，科技媒体 The Decoder 的测试认为 Uni-1 在复杂推理类生成任务上 " 明显优于 Midjourney v8"。有 Reddit 用户在逐一对比后评价：" 在真正的逻辑推理、复杂场景理解、空间合理性这些方面，Uni-1 完全碾压。" 不过，Midjourney 在艺术风格化和审美质感方面仍保有优势。

三、定价策略：高分辨率比谷歌便宜，瞄准企业客户

根据公开定价数据，Uni-1 在企业常用的 2K 分辨率上具有明显的价格优势：

谷歌 Nano Banana 2 在低分辨率上仍有价格优势，0.5K 图像约 0.045 美元 / 张（约合人民币 0.31 元），1K 图像约 0.067 美元 / 张（约合人民币 0.46 元）。对于大规模生产高分辨率图像的企业团队而言，Uni-1 在质量和成本两端同时占优。Luma AI 在输出端的 token 定价为每百万 token 45.45 美元（约合人民币 322 元）。

面向个人用户，定价则分为包年、包月和单次计价三种模式。作为一家初创公司，Luma AI 无法在分发渠道和基础设施上与谷歌抗衡，" 性能更强、价格更低 " 是它能打动客户的核心筹码。

Uni-1 定价（图源：Uni-1 官网）

四、社区反馈：从 " 提示词碰运气 " 到 " 真正的创作控制 "

Uni-1 发布后，尽管大规模独立测试仍在进行中，早期社区反应积极。

X 平台用户反馈良好，网友直言，图像生成终于不用费劲想提示词了。Reddit 上一位进行了逐项对比测试的用户给出了更细致的评价：Nano Banana 2 在速度和文字渲染上仍有优势，但在 " 真正的逻辑推理、复杂场景理解和需要深度思考的编辑任务 " 上，Uni-1 略胜一筹。该用户总结道：" 如果你在意的是图像真正‘合理’，而不只是‘好看又快’，Uni-1 是目前的最佳选择。"

X 上网友对于 Uni-1 的评价（图源：X）

不过，也有用户持观望态度。部分用户表示仍在等待完整 API 权限以进行独立测试，对非拉丁文字的处理效果、极端边缘场景以及最高分辨率下的生成速度仍有疑问。客观地说，社区的兴奋更多针对 " 新技术路线的突破感 "，长期表现仍需时间验证。

目前 Uni-1 可在 lumalabs.ai 免费体验，API 访问正在逐步开放。

结语：Luma 真的能后来居上吗？

从 Uni-1 的发布可以预测到，AI 图像生成的竞争正在从 " 谁的图更好看 " 转向 " 谁的模型更能理解指令 "。扩散模型统治这一领域已有三年之久，而自回归架构以大语言模型式的推理能力切入，第一次在核心基准测试上证明了这条路线的可行性，也可能影响未来更多实验室的技术路线选择。

真正的考验在于，Uni-1 能否在 API 大规模调用、多语言支持和生成速度上经受住企业级场景的检验。这场 " 架构之争 " 才刚刚进入正赛。你认为自回归路线能在图像生成领域站稳脚跟吗？

来源：VentureBeat、Lumalabs、X、The Decoder

宙世代

一起剪

相关标签