实测「电商神器」 Vidu 参考生图：有素材就能拼出任何图片

在大模型的进化路径上，多模态往往是层层递进的过程：从文字，到图片，再到视频、空间，直至 " 一切 "。每往前一步，都意味着数据维度的指数级扩展、算力的成倍消耗，以及训练难度的急剧攀升。

从这个角度看，视频生成被视为 " 皇冠上的明珠 "，因为它不仅要求单帧画面过关，还必须在时序上保持连续和自然。能做出高质量视频的团队，往往也能在图像层面有强大积累。

因此，当 Vidu 在视频生成领域频频被关注时，人们自然会联想到：如果它能生出流畅的视频，那么在静态图像领域，会不会直接形成 " 降维打击 "？

9 月 9 日，生数科技正式上线了「参考生图」功能。这是 Vidu 体系在视频之外的又一次延展。不同于常见的 " 输入文字 → 输出图片 " 的方式，Vidu 引入了参考图机制：用户不仅能用文字描述需求，还能上传多张参考图，作为模型生成的依据。

对 AI 生图来说，最大的不确定性往往在于 " 跑偏 "：人物换脸时五官崩塌、产品换壳后比例失衡、跨风格融合时违和感强烈。增加参考图，就像给模型多加了几条 " 护栏 "，不仅能约束生成结果，还能让 AI 理解更多语义、细节和风格。

实测 vidu「参考生图」

我们对 Vidu 进行了多轮测试，涵盖了从娱乐性 " 玩梗 " 到实际的电商场景。

参考数量 " 天花板 "

在参考数量上，Vidu 允许一次上传多达 7 张参考图，而业内普遍支持的只有 1 – 3 张，在复杂场景下却是决定性优势。

用 VIdu 开发人员的话来说：多参考生图的关键在于不仅要理解每个主体中的每个细节，对于图片每个元素有着原子式的理解，能保持更多主体每个特征的一致，还要理解整个主体，理解每个主体之间的关系。

任务 1：同类素材融合

我上传了 4 张运动员照片（篮球与足球的 " 詹库连线 "）。成品中，球员神态自然，衣服颜色、队徽、装饰元素都大体还原。虽然个别地方有 bug，比如 "6" 被识别成了 "s"，但考虑到只用到单角度图片，表现已属不俗。

在对比其他产品时，差异立竿见影。很多平台在 2 张图之后就开始 " 力不从心 "：要么强行把人物拼接在画布边角，要么直接舍弃某些参考元素。而 Vidu 可以同时 " 消化 " 多元素，在构图时保持自然。

任务 2：跨类型素材融合

进一步尝试跨类型组合。比如上传马斯克头像、机器人参考素材。Vidu 能较好地保持马斯克的神态，还能让人物和机器人摆放到提示要求的位置。虽然最终画面略显僵硬，但逻辑是成立的。

跨类型组合几乎是实际生产中最常见的需求。广告主往往希望把品牌、人物、场景和商品糅合在一张图里，传统方法要么靠摄影棚，要么靠 PS 美工，而 Vidu 的 " 多参考 " 机制为此提供了新的路径。

电商海报神器

任务 3：电商海报

电商运营最头疼的，就是 " 只有一张裸图 "。节日海报、主题促销、活动宣传都需要大量素材，但预算有限、时间紧张时，只能硬着头皮凑。

在 Vidu 里，只要上传单一产品，再加上几个关键词，就能生成颇具创意的海报。比如上传一张月饼照片，再输入 " 兔子、花灯、月球 "。生成结果不仅画面完整，还细致到阴影逻辑：月饼下方有光影，兔子脚下的灯笼也能投射出柔和的影子。

对 AI 生图来说，" 影子 " 往往是最难的细节，很多工具即便生成出漂亮的画面，也常常忽略光影关系，让成品显得虚假。而 Vidu 在这一点上的表现，说明其底层空间理解能力已经达到较高水准。

任务 4：给模特换产品，给图片加包装

做电商的同学经常会遇到一个场景，模特已经拍好图，但手里拿的不是最新款产品。要重新拍摄，成本和时间都很高。

在 Vidu 中，我们尝试让模特保持动作，仅替换手中的手机。第一次测试结果不理想，模特姿势总有变化。但当输入更明确的参考图时，AI 可以基本维持动作，顺利替换产品。

我们再来看一下产品细节，可以看到，"SONY""XPERIA" 等品牌文字，以及闪光灯位置都被精确复制，几乎没有偏差。唯一的小瑕疵是颜色较淡的 NFC 标志被识别错误。

在这一点上，Vidu 已经接近实用级别，它或许还不能完全替代拍摄，但能大幅缩短修改流程，降低成本。

任务 5：元素跨界融合

跨界做海报也是电商常见的需求，但往往会遇到跨的步子太大导致风格不统一等问题。

比如你有一张李白的复古图片，想要让他拿着产品，很可能会导致突兀。但在 vidu 这你只需要明确画风就能将二者很好的融合。

AI 生图也有上下文

如果说「参考生图」是解决 " 单张图如何变得更合理 " 的问题，那么「主体」功能则把问题往前推了一步：如何在多张图、多场景中保持同一个角色的一致性。

在 Vidu 的设计里，用户可以上传 1 – 3 张同一人物、物体或场景的照片，系统会为其建立一个 " 主体档案 "。这意味着，你不仅能临时参考几张图片，还能在之后的所有生成任务中，持续调用这个角色。

为什么这很重要？因为一致性，向来是 AI 生图最大的痛点。过去生成十张图，模特的脸型可能有十种版本，产品的细节每次都走样。主体功能的出现，就像在 AI 的记忆里安了一卷底片，让角色有了稳定的身份。

对于电商商家来说，这意味着：一次上传模特，就能在圣诞海报、中秋海报、夏季促销图中反复复用；对于内容创作者来说，则是虚拟 IP 的长线运营基础，一个角色能跨越无数作品保持统一风格。

从 " 参考 " 到 " 主体 "，Vidu 的逻辑已经不再是 " 帮你生一张图 "，而是悄然在构建一个 数字资产库：每个人物、每个产品都可以被召回、被复用。这不只是生成，更是内容工业化流水线的开端。

从功能到产业

Vidu 的「参考生图」与「主体」功能，正在把 AI 生图从 " 好玩 " 推向 " 好用 "。它不仅满足了用户的娱乐性需求，更切中电商、广告、内容创作等行业的实际痛点：一致性、效率和成本。

过去，品牌要为一次节日营销临时组织拍摄，动辄花费数十万；如今，运营团队只需上传几张参考图，就能在数小时内完成一整套物料。对于设计师而言，这不是替代，而是扩展——让他们可以把精力放在创意与策略上，而非机械性的重复劳动。

从行业视角看，这意味着电商内容生产正进入一个新的阶段：素材资产化，创意流水线化。在这个阶段，AI 工具不再只是辅助，而是成为基础设施。谁能率先掌握这类工具，谁就能在激烈的市场竞争中赢得先机。

Vidu 正在提供这样一种可能性：让企业把有限的资源投入到品牌和创意价值上，把重复性的执行交给 AI。对于一个内容消耗速度日益加快的时代，这可能正是下一轮增长的关键。

宙世代