硅星人 22小时前
实测「电商神器」 Vidu 参考生图:有素材就能拼出任何图片
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

在大模型的进化路径上,多模态往往是层层递进的过程:从文字,到图片,再到视频、空间,直至 " 一切 "。每往前一步,都意味着数据维度的指数级扩展、算力的成倍消耗,以及训练难度的急剧攀升。

从这个角度看,视频生成被视为 " 皇冠上的明珠 ",因为它不仅要求单帧画面过关,还必须在时序上保持连续和自然。能做出高质量视频的团队,往往也能在图像层面有强大积累。

因此,当 Vidu 在视频生成领域频频被关注时,人们自然会联想到:如果它能生出流畅的视频,那么在静态图像领域,会不会直接形成 " 降维打击 "?

9 月 9 日,生数科技正式上线了「参考生图」功能。这是 Vidu 体系在视频之外的又一次延展。不同于常见的 " 输入文字 → 输出图片 " 的方式,Vidu 引入了参考图机制:用户不仅能用文字描述需求,还能上传多张参考图,作为模型生成的依据。

对 AI 生图来说,最大的不确定性往往在于 " 跑偏 ":人物换脸时五官崩塌、产品换壳后比例失衡、跨风格融合时违和感强烈。增加参考图,就像给模型多加了几条 " 护栏 ",不仅能约束生成结果,还能让 AI 理解更多语义、细节和风格。

实测 vidu「参考生图」

我们对 Vidu 进行了多轮测试,涵盖了从娱乐性 " 玩梗 " 到实际的电商场景。

参考数量 " 天花板 "

在参考数量上,Vidu 允许一次上传多达 7 张参考图,而业内普遍支持的只有 1 – 3 张,在复杂场景下却是决定性优势。

用 VIdu 开发人员的话来说:多参考生图的关键在于不仅要理解每个主体中的每个细节,对于图片每个元素有着原子式的理解,能保持更多主体每个特征的一致,还要理解整个主体,理解每个主体之间的关系。

任务 1:同类素材融合

我上传了 4 张运动员照片(篮球与足球的 " 詹库连线 ")。成品中,球员神态自然,衣服颜色、队徽、装饰元素都大体还原。虽然个别地方有 bug,比如 "6" 被识别成了 "s",但考虑到只用到单角度图片,表现已属不俗。

在对比其他产品时,差异立竿见影。很多平台在 2 张图之后就开始 " 力不从心 ":要么强行把人物拼接在画布边角,要么直接舍弃某些参考元素。而 Vidu 可以同时 " 消化 " 多元素,在构图时保持自然。

任务 2: 跨类型素材融合

进一步尝试跨类型组合。比如上传马斯克头像、机器人参考素材。Vidu 能较好地保持马斯克的神态,还能让人物和机器人摆放到提示要求的位置。虽然最终画面略显僵硬,但逻辑是成立的。

跨类型组合几乎是实际生产中最常见的需求。广告主往往希望把品牌、人物、场景和商品糅合在一张图里,传统方法要么靠摄影棚,要么靠 PS 美工,而 Vidu 的 " 多参考 " 机制为此提供了新的路径。

电商海报神器

任务 3:电商海报

电商运营最头疼的,就是 " 只有一张裸图 "。节日海报、主题促销、活动宣传都需要大量素材,但预算有限、时间紧张时,只能硬着头皮凑。

在 Vidu 里,只要上传单一产品,再加上几个关键词,就能生成颇具创意的海报。比如上传一张月饼照片,再输入 " 兔子、花灯、月球 "。生成结果不仅画面完整,还细致到阴影逻辑:月饼下方有光影,兔子脚下的灯笼也能投射出柔和的影子。

对 AI 生图来说," 影子 " 往往是最难的细节,很多工具即便生成出漂亮的画面,也常常忽略光影关系,让成品显得虚假。而 Vidu 在这一点上的表现,说明其底层空间理解能力已经达到较高水准。

任务 4:给模特换产品,给图片加包装

做电商的同学经常会遇到一个场景,模特已经拍好图,但手里拿的不是最新款产品。要重新拍摄,成本和时间都很高。

在 Vidu 中,我们尝试让模特保持动作,仅替换手中的手机。第一次测试结果不理想,模特姿势总有变化。但当输入更明确的参考图时,AI 可以基本维持动作,顺利替换产品。

我们再来看一下产品细节,可以看到,"SONY""XPERIA" 等品牌文字,以及闪光灯位置都被精确复制,几乎没有偏差。唯一的小瑕疵是颜色较淡的 NFC 标志被识别错误。

在这一点上,Vidu 已经接近实用级别,它或许还不能完全替代拍摄,但能大幅缩短修改流程,降低成本。

任务 5:元素跨界融合

跨界做海报也是电商常见的需求,但往往会遇到跨的步子太大导致风格不统一等问题。

比如你有一张李白的复古图片,想要让他拿着产品,很可能会导致突兀。但在 vidu 这你只需要明确画风就能将二者很好的融合。

AI 生图也有上下文

如果说「参考生图」是解决 " 单张图如何变得更合理 " 的问题,那么「主体」功能则把问题往前推了一步:如何在多张图、多场景中保持同一个角色的一致性

在 Vidu 的设计里,用户可以上传 1 – 3 张同一人物、物体或场景的照片,系统会为其建立一个 " 主体档案 "。这意味着,你不仅能临时参考几张图片,还能在之后的所有生成任务中,持续调用这个角色。

为什么这很重要?因为一致性,向来是 AI 生图最大的痛点。过去生成十张图,模特的脸型可能有十种版本,产品的细节每次都走样。主体功能的出现,就像在 AI 的记忆里安了一卷底片,让角色有了稳定的身份。

对于电商商家来说,这意味着:一次上传模特,就能在圣诞海报、中秋海报、夏季促销图中反复复用;对于内容创作者来说,则是虚拟 IP 的长线运营基础,一个角色能跨越无数作品保持统一风格。

从 " 参考 " 到 " 主体 ",Vidu 的逻辑已经不再是 " 帮你生一张图 ",而是悄然在构建一个 数字资产库:每个人物、每个产品都可以被召回、被复用。这不只是生成,更是内容工业化流水线的开端。

从功能到产业

Vidu 的「参考生图」与「主体」功能,正在把 AI 生图从 " 好玩 " 推向 " 好用 "。它不仅满足了用户的娱乐性需求,更切中电商、广告、内容创作等行业的实际痛点:一致性、效率和成本。

过去,品牌要为一次节日营销临时组织拍摄,动辄花费数十万;如今,运营团队只需上传几张参考图,就能在数小时内完成一整套物料。对于设计师而言,这不是替代,而是扩展——让他们可以把精力放在创意与策略上,而非机械性的重复劳动。

从行业视角看,这意味着电商内容生产正进入一个新的阶段:素材资产化,创意流水线化。在这个阶段,AI 工具不再只是辅助,而是成为基础设施。谁能率先掌握这类工具,谁就能在激烈的市场竞争中赢得先机。

Vidu 正在提供这样一种可能性:让企业把有限的资源投入到品牌和创意价值上,把重复性的执行交给 AI。对于一个内容消耗速度日益加快的时代,这可能正是下一轮增长的关键。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 ai 马斯克 皇冠 考生
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论