从 Runway、Pika 到 Sora,AI(人工智能)视频工具不断刷新想象空间,而在国内,实践者们开始探索更深层次的问题—— AI 如何真正融入内容产业,形成可持续的生产模式。
百度副总裁、移动生态商业体系负责人陈一凡在接受包括《每日经济新闻》记者在内的媒体记者采访时将这一节点比作通信史上 "3G 到 4G" 的转折期——从 " 能生成 " 迈向 " 可实时互动 "。
陈一凡认为,实时交互被低估了," 如果只是生成,可能只是做了一个类似 AI 版的抖音 "。他表示,AI 视频竞争的下半场,正在从技术比拼转向门槛之争,谁能让更多人更低成本地参与创作,谁就能在生态中积累更大的势能。
百度视频生成大模型迭代:押注实时交互
在 AI 视频生成的快速演进中,技术的焦点似乎正在悄然转移,从 " 能生成 " 迈向 " 能交互 "。
陈一凡将这一节点比作通信史上 3G 到 4G 变革的前夜," 没有 3G,就没有移动互联网的繁荣;没有 4G,就不会有短视频的爆发 "。在他看来,生成模型的能力已趋近成熟,下一阶段的突破不在于更大的参数或更高的分辨率,而在于让生成变得实时、可控、可互动。
百度商业研发首席架构师李双龙也认为,人类创作的过程并不是一次性做成的,而是一个边写边改、不断思考与修正的过程。他指出,当前许多视频生成产品仍停留在 " 盲盒式 " 体验——用户等待模型一次性生成 10 秒或 20 秒片段,再判断结果是否可用,这种反射性生成方式并不符合真实的创作逻辑。
为了实现可打断和可修改的实时交互,百度 " 蒸汽机 " 选择将整个架构从窗口式扩展升级为自回归流式扩展架构。" 这未必是颠覆性的创新,但它是更符合人性的创作过程。" 李双龙说。
在谈及如何实现交互式生成时,李双龙坦言,这一方向背后存在大量技术挑战,传统的窗口式扩散生成方式无法支撑长视频创作,因为它以 10 秒为单位生成,出现问题时无法局部修改,只能重来。为此,团队对底层架构进行了升级,从 " 窗口扩散 " 转向 " 自回归流式扩展生成 "。
但该机制也带来了新的问题,例如累积误差和一致性挑战。对此,李双龙介绍,团队通过采用历史帧和稳定锚点帧技术等优化手段,来全局管理一致性,解决自回归带来的问题。
陈一凡认为,实时交互的需求是被低估了," 如果只是生成,可能只是做了一个类似 AI 版的抖音 ",这当然也有很大的空间,但可互动性之所以重要,在于它提升了信息密度,将传统的单向、写好剧本的内容消费转变为双向互动。
这能让用户拥有不同的情景体验,极大地提升娱乐性。从浅层应用来看,实时交互能提升广告线索质量;从深层应用来看,它能完成整个咨询或服务过程的深度交互,例如在心理咨询等场景中,数字人可以实时感知用户表情并作出反馈,实现与传统广告截然不同的深度。
在百度内部," 蒸汽机 " 承担着模型、工具、产品三层结构的中枢角色:底层是模型层,中层是工具层,上层是产品层。在这种布局之下,百度在视频生成模型方面的打法,更偏向于构建一个 AI 内容生态的基础设施。
视频生成竞争转向:从技术比拼到门槛之争
放眼全球,AI 视频生成模型领域竞争的激烈程度和变化速度远超想象。
OpenAI 的 Sora 2 模型一经发布,凭借 " 电影级 " 的短视频生成能力和对物理、人物塑造的巨大突破,其驱动的创作应用 "Sora" 迅速登上美区应用商店下载榜首,证明了其在 To C(面向用户)端强大的市场号召力。紧随其后,谷歌的 Veo 3.1 迅速更新,不仅新增了音频生成功能,支持为视频添加背景音乐和音效,更在对象控制、视频分辨率与时序连贯性上实现技术升级,提升了高质量内容创作的适用性。
这场全球范围内的技术竞赛正以前所未有的速度向前推进,但与此同时,底层架构和技术路径日益趋同。对于行业终局和应对策略,陈一凡认为,创新和用户体验将成为核心突破口。
陈一凡指出,从技术发展历程来看,视频生成行业经历了 " 从想法到实现,再到反思优化 " 的阶段。初期技术迭代主要集中在算法性能上,但随着 DIT 架构等方案成熟,算力需求和生成时间呈几何级增长,限制了大规模应用。
" 创新在这个阶段尤为重要。以前大家会关注技术性能,现在更多关注如何降低使用门槛,让玩法更丰富。" 陈一凡表示,降低门槛意味着用户能够即时获得互动体验,而非等待延迟结果,这也是目前很多大模型在应用上仍然存在短板的环节。
在具体实践中,百度通过升级流式架构提升生成效率,实现了大规模的视频生产与分发。陈一凡透露,平台视频生成量级已经从百万级提升到千万级," 当门槛降低、玩法丰富,自然会吸引更多用户涌入,最终的目标是让用户知道怎么玩、愿意玩 "。
对于近期热门产品如 Sora 2 的技术表现,陈一凡认为,其底层模型在一致性和运镜丰富度上有所提升,但尚未达到基础模型级别的突破。
在商业化的思考上,百度 " 蒸汽机 " 当前阶段的重点仍是内部赋能,即通过技术能力支撑内部产品,提升 To C 端的价值。陈一凡坦言,当前最明显的收益是 C 端整个的用户留存和使用时长的提升,这直接带来了百度原有商业化模式收入的增长。
据透露,目前,营销相关和内容创作是 " 蒸汽机 " 调用量最大的两大落地场景。营销相关调用量占到约一半。
对于未来是主攻 To C 还是 To B,陈一凡表示,目前两侧都在投入。To B 端,主要满足内部技术业务库的需求,以及应对外部客户的定制化需求,如专有云应用等,需要针对稳定性等进行微调;To C 端,侧重于结合百家号等生态,将创作者生态做大。
每日经济新闻
登录后才可以发布评论哦
打开小程序可以发布评论哦