智东西
作者 | 陈骏达
编辑 | 心缘
智东西 7 月 30 日报道,在 2025 世界人工智能大会(WAIC 2025)期间,视频生成独角兽生数科技的 CEO 骆怡航博士与媒体进行深入交流,详细介绍了生数科技视频生成技术的最新进展,并分享了他对视频生成技术未来发展方向的见解。
骆怡航着重谈到今年 7 月发布的 Vidu Q1 参考生功能,他认为,与文生视频、图生视频相比,参考生视频才是整个 AI 视频创作范式的底层功能。这种方式既不会像文生视频那样缺乏一致性,也不会像图生视频那样限制模型的发挥。
生数科技去年全球首发参考生视频功能,已经迭代 4 个版本。同时,该公司也在一致性方向不断投入,骆怡航认为一致性对广告、影视等商业创作而言至关重要。
骆怡航也谈到了上周生数科技联合清华大学发布的具身智能模型 Vidar,这是国内首个基于视频生成模型的具身基座模型。虽然具身智能的大规模应用还需要时间,但生数科技会将数字世界与物理世界的结合作为探索方向之一,并有可能在具身智能产业成熟后加大投入。
采访中,骆怡航还针对生数科技的商业化策略、技术升级方向、AIGC 产业趋势等问题进行分享。
值得一提的是,今天恰好是生数科技视频生成模型 Vidu 全球上线一周年。上线 8 个月,Vidu 生成视频总数已超过 3 亿个,用户数超 3000 万,B 端落地率达到行业第一,这些数据也带动 Vidu 上线 8 个月后年化收入突破 2000 万美元(约合人民币 1.44 亿元)。
一、参考生回归视频拍摄本质,Vidu 架构可扩展至具身智能
视频生成当前有多种实现形式,包括图生视频、文生视频、参考生视频等。其中,图生视频因其给予了创作者更多的控制力,而获得广泛使用。
图生视频需要用户上传完整的首帧图或尾帧图,模型以此为基准,生成画面。但由于图像中的各种元素已经被固定,模型很难对画面中的内容进行调整、修改,无法完全发挥出视频生成模型在创造力上的优势。
骆怡航认为,参考生视频让业界回到了本身视频拍摄的本质:用户可上传人物、道具、场景等元素,无需将其通过 P 图、生图、融图等繁琐环节,而是直接根据参考图直出视频。
最近推出的 Vidu Q1 参考生视频能力进一步提升,已经支持了七个主体的参考,基本可以满足大部分场景需求。
Vidu 参考生视频同时具备主体库功能,用户可以上传人物或者商品的正面、侧面、背面图,确保元素在不同场景下的主体一致性。
面向专业创作场景,Vidu 参考生视频提供了提示词专业模式。用户输入简单的提示词后,模型能够将用户的简单提示词改写为专业提示词,让最终作品质量更高,制作效率提升。
参考生视频这项技术满足了商业化场景对内容创作的需求,生数科技 Vidu 已在广告电商、互联网、动漫、影视、文旅、教育、游戏、广电等八大行业落地应用。
在 Vidu 视频生成模型的基础上,生数科技和清华大学共同打造了具身智能模型 Vidar,这一模型与 Vidu 一脉相承。
骆怡航称,Vidu 架构在设计之初就具备一定通用性,可胜任时空信息一致性的生成,在这个基础架构之上,只需进行少量数据、低成本的微调,便可将生成的虚拟视频转化为控制具身智能的动作信息。
Vidar 的主要创新在于,能突破原有 VLA 路线中优质数据难以获取和具身智能难以泛化的问题,实现了具身智能的少样本泛化,所需真机人类操作数据量约为行业典型值的千分之一。
二、视频生成技术分三步走,将优先满足专业用户需求
骆怡航还分享了视频生成技术发展过程中人与 AI 协作三阶段的观点。
第一个阶段仍是图生视频为主,需要文生图再生视频或者用首尾帧再生视频的复杂流程,虽然它在生产环节、效率上相比传统流程有所进步,但还未达到 100% 的效率提升。
第二阶段以参考生视频为主要功能,无需中间分镜生成环节,只要把主体选好,就可以直接生成视频。根据生数科技得到的用户反馈,这种方式给效率带来了明显提升。
第三个阶段中,将有大量内容 100% 由 AI 生成,内容生产执行的效率和成功率极大提升,创作者可以把大量时间投入到故事创意和关键设计上。
骆怡航称,目前生数 Vidu 正推动 AI 视频内容生成由第二个阶段向第三个阶段转变。
生数科技当前最高的优先级依旧是满足视频行业最严格、最复杂的专业要求,同时扩展、反哺 C 端用户。
对此,骆怡航解释道,当前视频生成技术尚无法支撑普通用户打造高质量视频,仍需在一致性、速度上实现突破,才能实现 AI 视频创作的普惠。
生数科技可以在服务 B 端专业用户的过程中,逐步打磨这些技术,例如根据广告电商客户的需求提升一致性,或是在动画场景针对性地提升风格和生产效率。这些在专业领域的技术积累,最终可以惠及 C 端用户。
结语:视频生成技术持续迭代,速度与成本仍有突破空间
随着视频生成模型能力的持续迭代,有越来越多的企业开始探索其应用价值,尤其是在影视制作、广告营销、教育培训等场景中。不过,要真正实现规模化落地,仍有很长的路要走。
在采访的最后,骆怡航也分享了他眼中视频生成未来的优化空间。首先,一致性作为基础问题,仍需要进一步提升;解决一致性问题后,下一步就是让视频生成做到 " 快 "、" 好 "、" 省 "。
其中," 快 " 和 " 省 " 的部分还有很大突破空间,现在生数科技已经实现最快几秒钟生成视频片段、分钟级生成 1080P 视频片段,未来会推进 AI 视频实时生成。
登录后才可以发布评论哦
打开小程序可以发布评论哦