生成快互动好：百度蒸汽机让AI视频创作长出“血和肉”

最近，一部包含大量 AI 创作内容的电影《蒙 ? 公主的回忆》在威尼斯电影节展映。《蒙 ? 公主的回忆》是一部科幻片，它以极低成本构建了 ? 个宏 ? 的未来 ? 洲世界。据导演达米安 · 奥塞尔介绍，他利 ?AI 完成了所有视觉特效。" 如果我能将 AI 作为 ? 具使 ?，我将拥有完全的 ? 由去制作 ? 部 ? 常 ? 众或 ? 常具体的电影。"

实际上，AI 的确正在重构影视行业，让创作者更为轻松地驾驭视频。

正如 10 月 15 日百度蒸汽机 AI 应用及模型进行的一次全面升级，迭代后的百度蒸汽机将图生视频的能力 " 卷 " 到了更高的维度，在生成过程中，用户可随时暂停、或在任意节点修改提示词，实现对视频剧情、画面、转场的实时控制和全程干预。凭借于此，在这一强敌环伺的 AI 争霸战中，杀出了一条新路径。

从复杂，走向人人可用

现阶段，AI 视频生成技术虽取得显著进展，但由于多采用基于 Transformer 架构的扩散模型，其在生成时长与实时性方面仍存在明显局限。

如果你试用过部分主流阵营中的生成视频应用便不难发现，生成长度普遍被限制在 5 至 10 秒，难以实现实时生成与交互能力。目前，这类短视频生成技术仅应用于工具层面，如视频片段与素材制作。

此外，如果想要一段长视频，则需要历经比较长的生成耗时，部分产品需要拼接以及准备首尾帧，操作繁琐，生成质量也无法恭维，效果无逻辑不串联、叙事也不够流畅，且计算成本随视频时长呈平方级增长。

而在百度蒸汽机的产品上，需要提前准备的资料并不繁琐，只需要一张图和一串提示词，便可以在方寸间得到一个画面连贯、节奏一致，剧情走向符合逻辑的长视频，不会有切换突兀的刹车感。此外，在生成时间维度上，更突破了传统 AI 视频生成 10 秒左右的时长限制。

操作更加便捷的背后，百度蒸汽机提供的视频生成能力采用了流式生成，不但生成的过程用户可以即时关注，更支持随时打断、任意位置修改提示词，实现 " 边生成边调整 " 的创作流程。

在现场的体验环节中，百度商业体系商业研发总经理刘林生成了一段橙色与银色两辆赛车正在比拼的长视频，他提出，可根据现场来宾的意见，选择哪个颜色的赛车率先冲过终点，并以此意见快速、实时生成一段视频，最终在来宾的共同支持下，谈笑风生间，橙色赛车胜出的视频便映入眼帘。

而为了让支持银色的来宾不留遗憾，刘林选择现场尝试修改比赛结果。此前，如果想要改变一段视频结果，往往需要整个视频推倒重来，而在百度蒸汽机上，支持在任意位置编辑，改变视频走向，在输入一段提示词后，分秒之间，银色赛车卡住位置率先冲线的视频便得以生成。

据了解，这些实用功能背后，是蒸汽机团队提出的解法与思考：从分治到全局，引入自回归扩散模型，结合自回归的长序列能力和扩散一致性强的优点，进行了重点优化。

可以说，这一全新的技术架构的升级，让视频生成从复杂时代走向了人人可用的简单时代。

不止于快速生成、可编辑，百度蒸汽机还向着更高信息密度的新功能潜行，生成的视频可实时互动。

实际上，在直播等场景中，一直对视频的持续时长与实时生成能力提出了更高要求，且对 " 互动 " 的期待更为迫切。

而此次百度蒸汽机的升级，推出了可交互数字人与开放世界动态构建两大功能。数字人支持沉浸式双向互动，可应用于 AI 导购、教育、陪伴等场景；开放世界则允许用户通过自行操控，在 AI 生成的游戏地图、旅游景点、宇宙空间等环境中自由探索。

同样在演示环节中，通过 WASD+ 鼠标控制视角，用户便可以在 AI 生成的虚拟火星世界中自由探索，观看陨石坠落和太空船穿越。

具备交互能力的长视频生成技术有望重塑人机媒介互动模式，推动内容消费方式由 " 被动接收 " 向 " 共同创造 " 转变，甚至催生新型艺术形式与商业生态。

五个月 4 个里程碑

图生视频不仅仅是 " 让图片动起来 " 的技术把戏，它本质上是赋予 AI" 想象力 " 和 " 叙事能力 " 的关键一步，将 AIGC 从工具层面提升到了 " 创意伙伴 " 的层面，能够共同构建一个连贯、动态、可互动视觉世界。这也正是它被视为 AIGC 未来核心落地方向的根本原因。

为此，百度以蒸汽机为抓手，在上线的三个月里，不断卷功能和拼能力，先后完成了多次行业突破，印证百度在 AI 应用这一领域中具备双手入泥的核心落地能力。

5 月 17 日，海外权威视频生成评测榜单 VBench Leaderboard 更新了最新一期图生视频榜单，百度视频生成模型以总分 89.38% 的成绩，登上 VBench-I2V 图生视频榜全球第一。

7 月 2 日，百度商业研发团队首次发布自研视频生成模型百度蒸汽机及创作平台 " 绘想 "，百度蒸汽机是当时全球首个实现中文音视频一体化生成的视频模型，可实现画面与音效、人声台词的协同创作，打破传统 AIGC 视频 " 先画面后配音 " 的割裂流程。

该模型支持一张图生成 10 秒 1080p 电影级画质视频，人物微表情与运镜效果达专业影视水准。其核心能力源于亿级中文多模态数据清洗、精细化视频结构化描述语言，以及多目标强化学习等技术优化。模型家族包含 Turbo、Lite、Pro 及全系列有声版，覆盖从普通创作者到专业影视机构的需求。

8 月 21 日，百度蒸汽机音视频一体化模型完成重大升级，在行业内首次实现多人有声音视频一体化生成。其 Turbo 版、Lite 版、Pro 版及有声版全面开放。

作为全球首个中文音视频一体化生成的 I2V 模型，其首创多模态潜在空间规划技术（Latent Multi-Modal Planner），能够自主协调多角色身份、情感与互动逻辑；同时中文场景深度适配，以超 98% 的还原度精准呈现中文语音细节与情感表达。在效果上能够实现电影级高清视频画面、逼真环境音效和自然人物语音的同步输出。百度官方同时表示，该系列大模型已经在百度搜索、营销等多个场景落地应用，且定价低至行业 70%。

短短几个月后，百度蒸汽机再此实现多项功能的全面升级，AI 视频从 " 单向生成 " 迈向 " 双向共创 "，真正实现 " 无限画布 " 式的连续创作体验。

百度蒸汽机的推出，标志着生成行业开始超越文本与对话的边界，真正具备了创作动态视听内容的能力。五个多月的研发与落地，既是对用户的全面增值，更让百度收集了大量真实场景数据，并驱动模型快速进化走了坚实的一步。

由此，一个核心问题正引发行业思考：视频生成是否将是行业通往 AIGC 路径上的标配能力？最近一段时间，海内外 AI 巨头争先发布生成视频模型，便是这个问题最好的答案。

当输入几行文字，使用一张图片，就能召唤出一段高质量的声画视频时，创作的形态正在被改写，门槛被显著降低。

尽管更长视频的逻辑与模拟，仍是行业亟需思考的课题，可能还需要翻过一座座技术高山，但 AI 视频的实用化时代已初步来临，而百度也是这一实用化时代的同行者。

在百度蒸汽机徐徐推进下，用户的想象力可转化为可听、可看的现实片段，技术工具与用户创意的一拍即合，正在为内容创作领域带来一场更深刻的变革。

（责任编辑：康嘉林）

【免责声明】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：news_center@staff.hexun.com

宙世代

一起剪

相关标签