
智东西
作者 | 陈骏达
编辑 | 李水青
智东西 11 月 26 日报道,昨晚,德国 AI 图像模型独角兽黑森林实验室发布了最新一代图像生成模型家族 FLUX.2。FLUX.2 的核心目标是解决真实生产环境中的需求,而不仅仅是作为演示或娱乐的生成工具。
FLUX.2 可同时参考多达 10 张图片,并保持字符、产品和风格的一致性。下图这张逼真的模特图,其实就是由 10 张不同图片的元素组合而来的。

其图像细节和真实感也有提升,能生成更丰富的细节、更清晰的纹理和更稳定的光照,适用于产品拍摄、可视化和模拟摄影的用途。

文本渲染方面,复杂的排版、信息图表、表情包和带有清晰文本的 UI Demo,如今都能被可靠地生成。

FLUX.2 对复杂、结构化指令的遵守能力得到提升,包括多部分提示和组成限制,并支持了最高 4 百万分辨率的图像编辑和更灵活的输入、输出比例。模型还能更好地遵循现实世界的知识、光照和空间逻辑,从而产生更加连贯的场景和预期的行为。
FLUX.2 系列本次一共发布 3 款模型,涵盖了从完全托管、可用于生产环境的 API 到开发者可以自行运行的开放式检查点等一系列模型产品。性能较强的 FLUX.2 [ pro ] 、FLUX.2 [ flex ] 并未开源,FLUX.2 [ dev ] 则是开源的。
值得注意的是,此前黑森林实验室开源的 Flux.1 [ dev ] 是 Hugging Face 上第二受欢迎的模型,仅次于 DeepSeek-R1。
FLUX.2 [ pro ] 、FLUX.2 [ flex ] 版本目前仅以 API 方式对外提供服务,前者可提供媲美顶级闭源模型的图像质量,而后者允许用户控制步数和引导比例等模型参数。
FLUX.2 [ dev ] 则是一款基于 FLUX.2 基础模型的 32B 参数量开放权重模型,这是目前最强大的开源图像生成和编辑模型,将文生图、图生图和多图输入功能相结合。
未来,黑森林实验室还计划发布开源的 FLUX.2 [ klein ] 模型,它基于 FLUX.2 基础模型精简而来,与同等规模的从零开始训练的模型相比,它功能更强大,对开发者更友好,并具备与其教师模型相同的诸多功能。
FLUX.2 基于潜在流匹配架构,将图像生成和编辑集成在单一架构中。该模型将欧洲本土 AI 创企 Mistral 自研的 Mistral-3 24B 视觉语言模型(VLM)与整流流式(Rectified Flow)Transformer 结合。VLM 带来了现实世界的知识和上下文理解,而 Transformer 则捕捉了早期架构无法实现的空间关系、材料属性和组合逻辑。

新一代可学习潜空间编码器 FLUX.2 – VAE,也就是所有 FLUX.2 模型的流式主干网络,已经依照 Apache 2.0 协议开源,可独立使用。
体验链接:
http://bfl.ai/play
开源地址:
https://huggingface.co/black-forest-labs/FLUX.2-dev
与日前发布的 Nano Banana Pro 相比,FLUX.2 的表现究竟如何?智东西进行了对比体验。我们首先尝试让两款模型根据以下提示词生成图片:
原文:Office building stairwell cam, chairs stacked impossibly high reaching multiple floors, person climbing past them on stairs, emergency lighting, fisheye distortion, architectural wrongness.
翻译:办公楼楼梯间的监控画面:成堆的椅子被不可能地垒到数层楼高,有个人正从楼梯上经过这些椅子旁,场景中带有应急照明、鱼眼镜头畸变,以及明显违背建筑结构逻辑的异常感。
模型需要生成看似真实但逻辑上错误的空间,既不能崩坏,也不能被自动纠正成正常结构,这对其世界知识和提示词遵循能力提出了挑战。
FLUX.2 [ pro ] 给出的生成结果如下,可以看到其较好地还原了鱼眼镜头畸变效果和提示词中的异常感,不过遗漏了 " 应急照明 " 这个要素。
Nano Banana Pro 的生成结果如下,可以看到,为了还原监控镜头的感觉,Nano Banana Pro 加上了时间戳和监控编号等要素,应急照明灯的效果也比较逼真,整个画面有更强的大片感。

我们还尝试让两款模型生成了 2000 年代 CCD 相机风格的照片,画面内容是两只树懒在酒馆喝酒。
在这题上,FLUX.2 [ pro ] 在风格还原上做得更好,无论是闪光灯效果还是画质的特点,都更为接近 CCD 相机的拍摄效果。

Nano Banana Pro 生成的结果在画面内容上并无明显错误,但是其风格还原度与 FLUX.2 [ pro ] 相比还有些差距。

为考察两款模型的实用性,我们试着让它们打造了一张科普用途的简易插图,解释德国城市弗赖堡的阳光为何如此充足。图中的所有文字都是提示词提供的,但画面内容主要由模型自行发挥。
FLUX.2 [ pro ] 打造的插图文字准确,图片内容符合主题。

Nano Banana Pro 也输出了准确的画面和文字,两款模型在这道题上打了平手。

由于 Nano Banana Pro 每天仅允许三次免费使用,我们并未进行更多对比实测。不过,此前我们已在测试中发现 Nano Banana Pro 的中文渲染能力还是不错的。
但当我们用中文向 FLUX.2 [ pro ] 发送指令,要求其解释伯努利现象时,其输出的画面中全是乱码,应该暂时还不支持中文的渲染。

结语:图像模型产业化转向加速
近期,各大图像模型的头部玩家,都不约而同地选择将升级方向定为实用性、可靠性,这也显示出 AI 图像生成技术正从演示和娱乐工具,向产业化应用加速迈进。
在追求画质之外,模型的输出稳定性以及专业场景的适用性,也成为衡量技术价值的新标准。


登录后才可以发布评论哦
打开小程序可以发布评论哦