4 个 AI 工具把脑洞变成短剧 | 图源:豆包 AI
作者/ IT 时报 沈毅斌
编辑/ 潘少颖 孙妍
前一分钟,在屏幕上敲下 " 两位武侠在雨巷对峙 " 的文字,下一分钟,两位武侠的身影已经出现在巷口,雨滴落在青石板上的瞬间,武器同时出鞘,刀光剑影之间将对峙的张力拉满。这不是影视基地的拍摄现场,而是在普通视频创作者的手机上,AI 生成的视频画面。
9 月以来,视频生成大模型集体进入 " 加速 " 阶段,即梦推出图片 4.0 版本,首次引入多模态生图技术;可灵上线 2.5Turbo 模型,能生成动态幅度更大的动作和运镜;Sora 也升级至 2.0 版本,突破了画面失真、镜头语言不足、叙事能力不足等痛点。
还有那些曾让创作者望而却步的剧本构思、场景搭建、角色建模等难题,被浓缩成 " 文本输入——参数微调——成片生成 " 的极简流程。
即便 AI 工具触手可及,但不少人仍卡在 " 不会综合运用 " 的瓶颈上。《IT 时报》记者虽是一个短剧 " 门外汉 ",却用只用 4 步,就完成了一部短剧的创作。
第一步
剧本 + 分镜头脚本生成
用好豆包、DeepSeek 等文本大模型
拍短剧的基础是拥有一个剧本,但非科班出身的创作者,脑海中也许只能想到一个大概的主题,具体内容、分镜头脚本等细节如同一团乱麻,不知从何下手。
这时,豆包、DeepSeek 等文本大模型就能把模糊的想法打磨成结构化的剧本。比如想拍一个 " 平行世界 " 的奇幻故事,只需在对话框中输入 " 帮我写一个 3 分钟的职场短剧剧本,主角是有着绘画梦想的都市打工人,每周都会收到匿名快递,里面的物品竟来自‘平行世界的自己’。那个没放弃画画的时空版本,提醒她必须在现实的安稳和梦想的冒险间做选择,核心冲突是现实生活与梦想斗争。"
根据提示,模型会快速生成包含人物小传、场景描述、对话台词等的初稿。需要注意的是,在提示过程中,最好将短剧题材、主角特点、情节走向等交代得越详细越好,比如 " 避免复杂支线,聚焦一个冲突点 "" 结尾设置悬念引出下集 " 等,这样生成的初稿就会更贴合想法。
接下来,是将剧本转变成一个个可执行的分镜头脚本,包括景别、拍摄手法、时长等。测试过程中,尽管豆包和 DeepSeek 都以表格的形式呈现出来,但豆包只生成一张表格,DeepSeek 会按照场景进行分类,并说明设计原因,更加细致。
第二步
分镜头图片生成
即梦搞定人物一致性
视频的本质是由一张张连续的图片拼接而成,但在制作短剧的过程中,最担心的莫过于画面中的主角会随时 " 变脸 ",上一帧还是身着汉服的温婉女子,下一帧突然变成身穿校服的现代男生。
分镜头图片的生成就成为塑造人物、场景的基础。虽然豆包、可灵等都能进行文生图,但记者多轮测试下来发现,即梦最近更新的 4.0 文生图版本,能最大程度保证人物的一致性。
首先在图片生成中选择即梦 4.0 版本,随后上传一张角色清晰面部特征的参考图,或是直接通过文字细致描绘角色的核心外貌要素,比如 "25 岁女性,齐肩短发,杏眼,鼻梁挺直,常穿米白色针织衫搭配卡其色长裤,气质温婉中带着一丝干练 "。
这些关键信息被系统捕捉后,即梦会生成一个专属的 " 角色数字分身 "。在后续生成不同场景的分镜头图片时,无论是主角在办公室对着电脑沉思的近景,还是在画室里专注作画的中景,甚至换动作、换风格,即梦 4.0 都能精准锁定角色的面部轮廓、发型和服装。参考图下方的 " 智能参考 " 按键,还能调节一致性强度,确保其在不同镜头、不同场景下始终保持一致的形象。
在此基础上,将 DeepSeek 或豆包生成的每一条分镜头脚本复制到指令框,点击生成,每一个场景、动作,都会变成一张张图片。不过,第一次生成的图可能不太理想,这时需要调整参数、描述词或点开图片,在编辑处选择局部重绘、消除笔等修一下,尽量让分镜头图片与脚本描述高度匹配。
第三步
视频生成
可灵注入动态 " 灵魂 "
如果说分镜头图片是短剧的 " 骨架 ",那么可灵 2.5Turbo 模型就是注入其中的 " 灵魂 ",让原本静止的角色做出细腻的动作,让镜头产生富有张力的运动,构建出短剧的动态叙事感。
选择可灵图生视频中的多图模式,将此前生成的分镜头图片,按照剧本的顺序依次导入。这里的核心在于如何通过精准的文本指令,引导 AI 理解每个镜头的动态需求。例如,对于一个主角 " 在办公室对着电脑沉思 " 的近景分镜头图片,不能简单输入 " 让这个人动起来 ",应该提供更具指导性的描述,如 " 镜头微微推近,聚焦主角面部神情,手指无意识地轻敲桌面,眼神中流露出犹豫与思索,背景环境保持相对静止以突出主体情绪 "。这样能帮助可灵更好地把握动作的幅度、节奏以及镜头的运动轨迹。
视频模型选择上也有讲究,此前的 1.6 版本,适合小幅度动作,可以选择 " 运动控制 " 进行动作模拟,还能通过上传动作视频定制动作,让人物运动更加丝滑。
最新的可灵 2.5Turbo 优势在于其对复杂动态场景的处理能力,尤其是在动作幅度和运镜流畅性上的提升。例如在剧本中,主角收到来自 " 平行世界自己 " 的匿名快递,当她疑惑地打开盒子,里面的一支画笔突然发出微光并悬浮起来。
针对这样的分镜头图片,指令可以是:" 运镜从主角惊讶的面部特写缓缓拉至中景,随着她打开盒子的动作,画笔逐渐从盒中升起,悬浮于半空并发出柔和光芒,镜头围绕画笔进行小幅度旋转,同时捕捉主角从疑惑到震惊再到若有所思的表情变化,动作需连贯自然,光影效果突出奇幻氛围 "。可灵 2.5Turbo 能够较好地理解并执行这样包含物体运动、镜头旋转以及人物表情变化的复合指令。
生成视频后,需仔细预览每一段画面,检查人物动作是否符合预期、镜头运动是否流畅自然、是否存在穿帮或画面失真的情况。如果某个片段的动态效果不尽如人意,可以返回调整文本指令的细节,然后重新生成,直至达到理想的动态效果。
第四步
后期处理
剪映一键成片
AI 短剧创作的 " 临门一脚 " 就是后期处理,剪映的 " 一键成片 " 功能,能将零散的视频素材、音效、字幕等元素快速整合,让短剧从 " 半成品 " 成为可直接分享的完整作品。
在剪映首页点击 " 一键成片 " 按钮,选择此前用可灵生成的所有分镜头视频片段,剪映会自动对这些视频进行 AI 分析,根据画面内容和节奏进行初步排序,基本能还原剧本的叙事顺序。
为了确保万无一失,建议在生成前手动检查并调整素材的排列顺序,特别是对于有明确递进关系的短剧来说,顺序的准确性直接影响故事的流畅度。
剪映有丰富的视频模板,这些模板不仅预设了转场特效、滤镜色调,还搭配了背景音乐和音效。例如创作 " 平行世界 " 这样的奇幻短剧,可以在模板库中搜索 " 奇幻 "" 梦境 " 等关键词,选择带有柔和光晕、粒子特效的模板,模板自带的空灵背景音乐和神秘音效,能瞬间将观众带入奇幻的氛围中。
虽然 " 一键成片 " 会根据模板自动匹配背景音乐,但为了让音乐更贴合剧情的起伏变化,建议手动替换适配的音乐。同时,最好为视频添加一些细节音效,如键盘敲击声、开门声、雨滴声等,这些细微的声音元素能让画面更加生动逼真,增强观众的代入感。
排版/ 季嘉颖
图片/ 豆包 AI 即梦 AI Deepseek
来源/《IT 时报》公众号 vittimes
读者福利


登录后才可以发布评论哦
打开小程序可以发布评论哦