观网财经 04-28
Sora拍片真实体验:大力难出奇迹,全靠人工逐帧后期
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 陈济深 编辑 |   张广凯

今年年初,OpenAI 发布其首个文生视频模型 Sora,可用文字指令生成长达 1 分钟的高清视频,随即引起广泛关注和多方震动。马斯克就感叹 " 人类认赌服输 ",许多人更是直呼 " 导演、后期要失业了 ",毕竟,这一被称为 " 造片神器 " 的模型问世,意味着或许每个使用它的普通人都可能实现 " 导演梦 "。很多人已经在畅想由 ChatGPT 生成创意文案和脚本,再由 Sora 从文本生成酷炫的几分钟广告大片。

Sora 最初并未对外开放试用,直到近几周,来自加拿大的 Shy Kids 团队作为少数获得部分 Sora 权限的制作团队,尝试单纯用 SORA 取代摄像机,制作了一部时长 1 分 21 秒的短片,也为大家揭开了 Sora 神秘的面纱。

这部《Air Head》短片由 3 人制作,耗时接近 2 周。谈及制作过程,他们除了感慨 SORA 的强大功能,也谈到了制作背后的很多内幕:真实的 Sora 成片每一秒都需要至少 300 倍的素材,而且 OpenAI 的科学家们似乎完全没有意识到,视频存在镜头语言这个需求,AI 从文本一键生成我们理想中的大片依然只是美好的想象,

Shy Kids 的深度体验也证明了一个关键的事实,在 Sora 发布时,OpenAI 似乎在暗示这些样片都是完全由 SORA 自称生成制作,但大家看到的样片 " 买家秀 " 背后实际上包含了大量人工的专业制作,无论是分镜,编辑,调色,还是镜头,特效,这些目前均无法靠 AI 来取代。

专业团队的分镜,AI 依然看不懂

Shy Kids 作为一支加拿大专业影视团队,以其不拘一格和创新的媒体制作方法而闻名。被称为 " 朋克摇滚皮克斯 ",在艺术性层面,他们的作品获得了艾美奖提名并入围奥斯卡提名,而在商业化层面,他们为迪士尼,奈飞,HBO 等平台制作过多部作品,在业界有一定的知名度。

即便是这样的专业团队,在使用 Sora 制作视频时,上来就发现了一个大问题——传统的先写剧本分镜然后开启拍摄制作的流程在 Sora 上行不通。

本片导演在介绍影片制作时提到,他们使用的 Sora 依然是传统的输入本文生成视频模式,并不支持现在很多大模型已经应用的多模态输入。

这直接导致了一个尴尬的剧情,由于没法给 Sora 看分镜图,Sora 完全无法生成一段连贯的视频来满足摄影团队的需求,团队只能将每一个分镜都单独生成视频来进行拼接。

但是这里就出现了第二个问题,AI 对于事物的理解并不如人类,即便前一个镜头的素材完美符合了导演的需求,按照同样的需求文字输入后,下一段片段依然无法复现相同的元素。

导演对此举了一个例子:假设你要求 Sora 在厨房里拍摄一张桌上有香蕉的长镜头。在这种情况下,它将依据对 " 香蕉 " 这个概念的理解来生成视频。通过训练数据,它 " 学习 " 了香蕉的各类要素:例如 " 黄色 "、" 弯曲 "、" 有深色末端 " 等。但它没有实际记录的香蕉图像,也没有类似 " 香蕉图片库 " 数据库,只凭借关键词生成它认为的香蕉,这也导致了每次生成得香蕉都无法保证固定一样,这对于长视频拍摄造成了巨大的影响。

为了保持最简单的一致,团队不得不将各种 Sora 生成片段进行裁剪拼接。

团队展示影片制作过程

以这张气球人骑车的片段为例,由于每次生成主角骑车画面都无法保持统一,看似流畅的画面实际上由三段画面拼接而成。

AI 拍片,更耗人力了

由于 AI 无法稳定生成一个固定的角色或者道具,这也导致了《Air Head》制作时遇到了许多在传统影视中不会遇到的问题。

这部短片的主角是一个黄色气球作为头部的人,由于 AI 无法稳定地生成这样一个角色,在这部 1 分 21 秒的作品中,几乎每一秒都需要大量的后期调整才保证角色的统一。

为了解决这个问题,Shy kids 决定大力出奇迹,通过大量生成相关片段筛选相对统一有用的部分,来组合成一部影片,这也让团队原来设想的拍摄电影变成了一部类似纪录片的拼接缝合。

团队负责后期的帕德里克表示:" 短片有剧本,但团队需要灵活应变 "," 只是获得了一大堆镜头,并试图以一种有趣的方式将其剪辑给旁白。"

其透露道,为了制作这部片子,每一秒钟的成片都需要大概 300 倍的素材。

而渲染这些原始素材成为了影片最耗时的部分之一,团队表示每次得到的素材长度在 3-20 秒,但是渲染的时间需要 10-20 分钟不等。

而即便是渲染出来最终采用的素材,依然逃不过大量的人工后期加工。

Shy Kids 提供的信息显示,即便每次都要求生成一个黄色的气球,Sora 有时候还是会生成一个红色气球,由于没有更加合适的素材,后期团队只能利用 PS 和 AE 将其涂成黄色。

成片(上)和 SORA 生成视频原片(下)

而有时候则会在气球上出现人脸,这导致需要大量的后期处理,包括分级、稳定化、上采样以及移除不需要的元素。

SORA 生成的气球人出现了人脸

OpenAI:什么是镜头语言?

除了需要大量的后期外,对于制作 AI 电影中最大的障碍,负责本片后期的帕德里克提到了 AI 目前很难理解镜头语言这个缺点。

帕特里克表示:对于许多文生视频工具来说,一个有价值的信息来源是相机元数据。例如,如果需要用照片训练(大模型),相机元数据将提供镜头尺寸、光圈值和许多其他关键信息供模型训练。

但是对于电影镜头," 跟踪 "" 平移 "" 倾斜 " 或 " 推入 " 的想法都不是相机数据中冰冷的数据,而是一个更加抽象性的概念。尽管在影视行业中对象永恒性(道具 / 人物需要在拍摄时持续存在)制作至关重要,但镜头语言也同样重要,然而目前的 Sora 不仅难以实现,甚至难以理解这个概念。

Shy Kids 表示:" 对于如何描述电影场景中的一个镜头,九个不同的人会有九种不同的想法。 ( OpenAI ) 研究人员在让艺术家使用该工具之前,并没有真正像电影制作人那样思考。" 尽管 Shy Kids 团队知道他们体验的 Sora 版本比较早期,但依然对于杂乱无章的摄像机机位和角度表示震惊,在团队眼中,他们已经试图在文本中强调固定机位或者镜头语言这个概念,但是他们不太确定到底是 Sora 无法理解他们的输入方式,还是 SORA 根本就没有相关的概念。

目前 SORA 几乎只会怼脸直拍一种角度

在将这个问题反馈给 OpenAI 后,双方都大吃一惊,相比 Shy Kids 团队,OpenAI 的研究人员震惊于文生视频居然有这样的需求,这番回复让 Shy Kids 团队集体瞳孔地震,在他们眼中司空见惯的认知居然在 SORA 的开发中完全没有被提及。

在 Sora 紧急更新了相关代码后,Shy Kids 对保持同一机位这个功能的评价也是 " 堪堪够用 ",帕德里克表示 SORA 目前可以做到生成 10 次视频,六次能得到差不多的机位角度。

不过他补充到,值得注意的是这并不是一个独特的问题,几乎所有主要的文生视频公司都面临着同样的问题。Runway AI 在提供描述摄像机运动的 UI 方面可能是最先进的,但 Runway 的质量和渲染剪辑的长度不如 Sora。

对于整体的拍摄体验,Shy Kids 团队表示这是一次新奇且有意义的探索,他们认为比起靠 Sora 直接生成一部影片,将 Sora 融入 AE 制作特效镜头是一个非常好的应用尝试。

同时,他们也表示,目前的 Sora 依然非常的早期,并不适合对外公开发布,对于专业团队来说,可能离满足导演要求还有很长的路要走,但是对于普通人,也许在未来的一段时间内,如果不在乎各种奇怪的 BUG 画面和需要大量的后期修补,Sora 或许能做到足够普通人使用的程度。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

导演 加拿大 对外开放 hbo 马斯克
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论