给专业导演配齐创作助手,还帮远洋海员实现 " 视频自由 "。
作者 | 陈骏达
编辑 | 漠影
起猛了,AI 现在都能生成武打戏了,还是人虎搏斗的那种!
近日,一条名为《风入松》的 AI 短片,在年度 AI 盛会 WAIC 期间亮相,吸引了不少眼球。这部影片以现代废土风,重新演绎了经典的 " 武松打虎 " 故事。
画面中,主角的动作流畅有力,老虎的毛发随势起伏,甚至尘土飞扬、衣角翻动等细节也都清晰可见。这可不是靠后期反复修补得来的,而是一次性生成的结果,让人不禁感叹 AI 视频生成技术的飞速进展,逐渐迈入专业影视制作的实用阶段。
《风入松》由中国电影导演中心与中国电信人工智能研究院(TeleAI)联手打造,使用的正是 TeleAI 的 VAST 视频生成大模型。
TeleAI 由中国电信集团 CTO、首席科学家李学龙教授牵头组建,于去年 7 月的 WAIC 大会上正式揭牌。在李学龙教授的带领下,TeleAI 团队打造了包括 VAST 在内的星辰大模型体系,是国内首个全模态、全尺寸、全国产的 " 三全 " 大模型,并推动相关技术的创新和应用。
从设定的角度来看,《风入松》这部短片本身便极具想象力,但最令人惊叹的,当属 AI 技术如何将天马行空的想象化为逼真画面。
作为技术支撑,TeleAI 的 VAST 视频生成大模型去年 12 月发布时,便在权威视频生成评测榜单 VBench 中夺得榜首,并持续迭代升级。
从基础画面生成,到复杂动作,再到镜头控制与角色一致性优化,其能力边界不断扩展,已具备在专业创作场景中 " 顶上阵 " 的潜力。
01.
视频生成告别开盲盒游戏
能演会拍才是好 AI
要真正理解《风入松》这部短片实现的突破,我们首先得看看,影视制作究竟需要什么样的 AI 工具。
分辨率高、动作流畅、细节写实,这些只是技术层面的基础能力,远远不够支撑一部真正意义上的影视作品。
要在真实的影视制作流程中发挥作用,AI 更关键的是要理解导演的创作意图,跟上叙事节奏、掌握镜头语言、调动情绪氛围,真正融入视听语言的表达体系。
换言之,AI 不仅要会画画,更要像电影人一样会拍、会演,能够协同完成角色塑造、场景调度与叙事推进,成为一名具备视听表达能力的 " 创作伙伴 "。
《风入松》中,TeleAI 的 VAST 视频生成大模型已展现出强烈的画面表现力和叙事控制力。
影片伊始,当现代 " 武松 " 骑着摩托车在沙漠飞驰,AI 将每一处细节都刻画得淋漓尽致:引擎轰鸣声与风沙的呼啸形成震撼音浪,摩托车飞跃障碍时在空中划出完美的弧线,车轮驶过沙地时激起细腻的沙浪,光影真实自然。
在激烈的猛虎搏斗场景中,AI 模拟的每一根虎毛都随动作摆动,肌肉线条在扑咬时展现出惊人的动态细节;主角与老虎搏斗时拳拳到肉,动作有力、毫无穿帮。这些曾需要顶级特效团队数月打磨的画面,如今通过 AI 实现了电影级的真实感。
TeleAI 的 VAST 视频生成大模型已经凭借其影片质量,俘获了一批专业人士。参与《风入松》制作的团队在影视行业有丰富的从业经验,据了解,他们在使用 TeleAI 的 VAST 视频生成大模型后,给予了高度认可,这更凸显了 TeleAI 在视频生成领域实现的重大突破。
02.
如何打造电影级视频生成模型?
揭秘背后三项核心技术
那么,打造这样一款视频生成大模型,背后究竟需要哪些关键支撑?从《风入松》的画面中,我们可以清晰地看到其中的三项核心技术。
首先是动作迁移技术。在《风入松》这部短片中,TeleAI 的 VAST 视频生成大模型展现出强大的画面表现力和叙事控制力。张力十足的打斗戏中,没有出现 " 穿模 "、扭曲等常见问题。
动作迁移技术允许制作者上传一张首帧图和一段参考动作,AI 便能让首帧图中人物的动作表演与参考视频完全一致。这一技术成功攻克了 AI 生成视频中动作节奏难以控制、人物表情表演生硬等难题,让 AI 生成的视频人物动作更自然、表情更生动。
业界的主流动作迁移方案都基于骨骼绑定,不过,TeleAI 决定更上一层楼,将其从 2D 骨骼点升级为 3D 骨骼点绑定,使得动作更具空间感、层次感,甚至可以自然地控制动物或卡通人物。
另一大核心技术为可控三维运镜,赋予了 AI 对 " 镜头语言 " 的准确理解和运用能力。例如,在下方画面短短的几秒内,《风入松》呈现了多角度、快速切换的复杂运镜,远景、仰拍、特写等流畅衔接。这些原本需要专业摄影指导和团队配合的镜头切换,在这里被 AI 准确实现。
这并不是靠堆砌提示词 " 蒙 " 出来的。通过可控三维运镜技术,TeleAI 把三维重建与视频生成深度融合,赋予模型空间结构的感知能力,再通过摄像机内参、外参等物理参数精细控制运镜效果。AI 不只是懂内容,它逐渐开始懂得怎么拍,让 AI 真正具备导演般的视角。
会演、会拍仅仅是开始,很多业内人士评价,AI 视频目前最大的问题之一是 " 一致性差 ",同一人物在不同镜头中的形象、着装、气质常常前后不一,极易穿帮。
但《风入松》中的主角却始终保持了稳定的外貌风格,这得益于背后的人物一致性技术。TeleAI 的 VAST 视频生成大模型采用分步生成的方式,先生成分镜、深度信息等中间数据,再在此基础上精细生成画面。
这种生成流程极大提高了人物、画面的一致性与叙事可控性,流程和电影工业中用故事板搭建画面框架,再利用计算机图形技术渲染的逻辑几乎一致,让 AI 没有随意发挥的空间。
上述底层能力的升级,是 AI 视频真正迈入影视工业体系的敲门砖。更重要的是,TeleAI 在与专业导演的合作中,获得了大量来自一线实践的反馈需求:比如演员的表情、情绪、人物节奏等更加细腻的表演控制。这些开发者原本没有预料到的专业需求,正逐渐转化为技术研发的新方向。凭借这些先进技术,TeleAI 为影视制作行业带来了前所未有的便利和优势。
03.
视频生成 + 通信解锁新场景
" 脑补 " 画面实现远洋视频通话
在推动视频生成技术赋能影视工业的同时,TeleAI 也在积极探索这项技术更广阔的应用场景。毕竟,视频生成的本质并不仅限于电影创作,而是一种对视觉信息的重构方式。
从 AI 的通用视角来看," 智能的本质是压缩 " 已成为业内共识。无论是语言模型、图像模型还是视频模型,其核心任务都是从海量原始数据中提取模式与规律,并以高效、紧凑的方式编码进模型参数中,模型学会用有限的参数表示无限的可能。
但真正的智能不仅在于压缩,更在于 " 还原 "。也就是说,一个具备高水平智能的系统,必须能够在接收有限信息的情况下,准确重建原始内容,甚至完成合理补全与未来预测。
中国电信人工智能研究院(TeleAI)将 VAST 视频生成大模型与其正在布局和研究的一项重要技术 " 智传网(AI Flow)" 深度结合,提出了一种新型通信技术——生成式智能传输,也就是用 " 计算 " 换 " 带宽 "。
智传网(AI Flow)是人工智能(智)、通信(传)、网络(网)三项关键技术的融合,通过网络分层架构,基于连接与交互,实现智能的传递和涌现。
在李学龙教授的带领下,TeleAI 打造了包括智传网(AI Flow)技术体系(包括生成式智能通信技术等)在内的 " 一治 + 三智 " 战略科研布局,其他方向还包括 AI 治理、智能光电 ( 包括具身智能 ) 、智能体。
智传网(AI Flow)的突破,有望解决通信业务中一个长期存在的难题——如何在极其有限的带宽条件下,高效传输高质量的视频和多媒体内容。
这是困扰通信行业多年的技术瓶颈——传统的视频通信技术依赖高带宽和高稳定性的网络环境,一旦网络不给力,立刻就卡成 PPT、音画不同步。
像你我这样的普通用户,也经常会在生活中遇到类似问题。例如,在演唱会、会展等人员极为密集的场所,网络拥堵常常导致视频通话无法连接、直播卡顿,甚至连基本的视频上传和下载都变得困难。
更不用说在高铁、地下、飞机或远洋、偏远山区等极端条件下,视频通信几乎成为奢望。这些问题背后,正是现有通信技术在带宽、稳定性和数据传输效率上的瓶颈。
在本届 WAIC 大会上,TeleAI 展示了基于智传网(AI Flow)的生成式智能传输技术的典型案例——远洋通信,破解了这一瓶颈。
船舶与陆地的通信,长期以来是全球航海技术发展中的巨大挑战。由于船上的卫星网很慢,信号很差,船员只能通过微信打字给家里报平安,无法进行视频电话或刷短视频、上视频网站。
生成式智能传输技术,让远洋视频通话不再是奢望,而是变得简单且高效。这项技术的应用,不仅连通了海洋与陆地,也让船员们的业余时光告别了单调,拥有如同岸上般丰富的色彩。
传统视频压缩传输方式是把整段视频原样搬运,而生成式智能传输技术则采用了更聪明的办法:通过 TeleAI 的多模态大模型,提取音视频最关键的特征信息,压缩编码后,将这些信息发送给接收端。
而在接收端,TeleAI 部署在本地的多模态生成大模型能根据上述信息,自主 " 脑补 " 出完整画面,就像用草图还原一副画作一样。
这种压缩传输方式相较传统方案(如 H.264+5G LDPC)展现出明显优势。在卫星场景下带宽资源稀缺时,这个方案将带宽需求压缩了整整 1-2 个数量级,视频数据体积最多可降至原始的 1%,在背景变化较小的场景中甚至可达千分之一。
在船载服务器上的多模态生成大模型本地完成音视频的智能还原后,画质、音质可以保持 " 主观无损 " 的水平。这就让远洋海员们即便在极低带宽条件下,依然能够实现清晰、流畅的视频通话体验。
从部署角度来看,这项技术对硬件要求也非常友好——船只仅需搭载一台配有 4 张消费级显卡的本地服务器,便可为船员提供稳定的 Wi-Fi 视频通话服务。这种轻量化部署,为未来的规模化落地提供了现实基础。
生成式智能传输不仅适用于远洋通信,还是一整套可适配不同通信环境的解决方案。系统可根据不同场景下的带宽、算力等资源条件,智能选择不同大小的视频解码模型。
例如,在多数通话场景中,仅使用 480P 分辨率和小模型即可实现流畅且清晰的通信体验,从而实现算力与带宽的最优协同。
可以说,这项技术展现的并非某一项技术的单点突破,而是一种系统性的融合式创新。如果没有 VAST 视频生成技术的日益成熟,视频信号根本压缩不到这个程度;如果没有智传网(AI Flow)基础构建,再精美的画面也送不到用户眼前。
未来,通信不再是单纯的信号搬运,而是理解与重建的过程,编码的不再是比特,而是意义本身。生成式智能传输技术在远洋通信的应用场景中已获得验证,在不久的未来,这项技术将进一步推广,实现在飞机的机舱内拨打高清视频会议,不因信号影响工作;野外露营时,也能收看精彩的球赛,不为生活留下遗憾。
这正是一场 AI 与通信的 " 双向奔赴 ",也为构建高质量、低成本的未来多媒体通信基础设施,提供了坚实的技术底座与实践范本。
登录后才可以发布评论哦
打开小程序可以发布评论哦