我一个“门外汉”，只用四步做了一部短剧

4 个 AI 工具把脑洞变成短剧 | 图源：豆包 AI

作者／ IT 时报 沈毅斌

编辑／潘少颖孙妍

前一分钟，在屏幕上敲下 " 两位武侠在雨巷对峙 " 的文字，下一分钟，两位武侠的身影已经出现在巷口，雨滴落在青石板上的瞬间，武器同时出鞘，刀光剑影之间将对峙的张力拉满。这不是影视基地的拍摄现场，而是在普通视频创作者的手机上，AI 生成的视频画面。

9 月以来，视频生成大模型集体进入 " 加速 " 阶段，即梦推出图片 4.0 版本，首次引入多模态生图技术；可灵上线 2.5Turbo 模型，能生成动态幅度更大的动作和运镜；Sora 也升级至 2.0 版本，突破了画面失真、镜头语言不足、叙事能力不足等痛点。

还有那些曾让创作者望而却步的剧本构思、场景搭建、角色建模等难题，被浓缩成 " 文本输入——参数微调——成片生成 " 的极简流程。

即便 AI 工具触手可及，但不少人仍卡在 " 不会综合运用 " 的瓶颈上。《IT 时报》记者虽是一个短剧 " 门外汉 "，却用只用 4 步，就完成了一部短剧的创作。

第一步

剧本 + 分镜头脚本生成

用好豆包、DeepSeek 等文本大模型

拍短剧的基础是拥有一个剧本，但非科班出身的创作者，脑海中也许只能想到一个大概的主题，具体内容、分镜头脚本等细节如同一团乱麻，不知从何下手。

这时，豆包、DeepSeek 等文本大模型就能把模糊的想法打磨成结构化的剧本。比如想拍一个 " 平行世界 " 的奇幻故事，只需在对话框中输入 " 帮我写一个 3 分钟的职场短剧剧本，主角是有着绘画梦想的都市打工人，每周都会收到匿名快递，里面的物品竟来自‘平行世界的自己’。那个没放弃画画的时空版本，提醒她必须在现实的安稳和梦想的冒险间做选择，核心冲突是现实生活与梦想斗争。"

根据提示，模型会快速生成包含人物小传、场景描述、对话台词等的初稿。需要注意的是，在提示过程中，最好将短剧题材、主角特点、情节走向等交代得越详细越好，比如 " 避免复杂支线，聚焦一个冲突点 "" 结尾设置悬念引出下集 " 等，这样生成的初稿就会更贴合想法。

接下来，是将剧本转变成一个个可执行的分镜头脚本，包括景别、拍摄手法、时长等。测试过程中，尽管豆包和 DeepSeek 都以表格的形式呈现出来，但豆包只生成一张表格，DeepSeek 会按照场景进行分类，并说明设计原因，更加细致。

第二步

分镜头图片生成

即梦搞定人物一致性

视频的本质是由一张张连续的图片拼接而成，但在制作短剧的过程中，最担心的莫过于画面中的主角会随时 " 变脸 "，上一帧还是身着汉服的温婉女子，下一帧突然变成身穿校服的现代男生。

分镜头图片的生成就成为塑造人物、场景的基础。虽然豆包、可灵等都能进行文生图，但记者多轮测试下来发现，即梦最近更新的 4.0 文生图版本，能最大程度保证人物的一致性。

首先在图片生成中选择即梦 4.0 版本，随后上传一张角色清晰面部特征的参考图，或是直接通过文字细致描绘角色的核心外貌要素，比如 "25 岁女性，齐肩短发，杏眼，鼻梁挺直，常穿米白色针织衫搭配卡其色长裤，气质温婉中带着一丝干练 "。

这些关键信息被系统捕捉后，即梦会生成一个专属的 " 角色数字分身 "。在后续生成不同场景的分镜头图片时，无论是主角在办公室对着电脑沉思的近景，还是在画室里专注作画的中景，甚至换动作、换风格，即梦 4.0 都能精准锁定角色的面部轮廓、发型和服装。参考图下方的 " 智能参考 " 按键，还能调节一致性强度，确保其在不同镜头、不同场景下始终保持一致的形象。

在此基础上，将 DeepSeek 或豆包生成的每一条分镜头脚本复制到指令框，点击生成，每一个场景、动作，都会变成一张张图片。不过，第一次生成的图可能不太理想，这时需要调整参数、描述词或点开图片，在编辑处选择局部重绘、消除笔等修一下，尽量让分镜头图片与脚本描述高度匹配。

第三步

视频生成

可灵注入动态 " 灵魂 "

如果说分镜头图片是短剧的 " 骨架 "，那么可灵 2.5Turbo 模型就是注入其中的 " 灵魂 "，让原本静止的角色做出细腻的动作，让镜头产生富有张力的运动，构建出短剧的动态叙事感。

选择可灵图生视频中的多图模式，将此前生成的分镜头图片，按照剧本的顺序依次导入。这里的核心在于如何通过精准的文本指令，引导 AI 理解每个镜头的动态需求。例如，对于一个主角 " 在办公室对着电脑沉思 " 的近景分镜头图片，不能简单输入 " 让这个人动起来 "，应该提供更具指导性的描述，如 " 镜头微微推近，聚焦主角面部神情，手指无意识地轻敲桌面，眼神中流露出犹豫与思索，背景环境保持相对静止以突出主体情绪 "。这样能帮助可灵更好地把握动作的幅度、节奏以及镜头的运动轨迹。

视频模型选择上也有讲究，此前的 1.6 版本，适合小幅度动作，可以选择 " 运动控制 " 进行动作模拟，还能通过上传动作视频定制动作，让人物运动更加丝滑。

最新的可灵 2.5Turbo 优势在于其对复杂动态场景的处理能力，尤其是在动作幅度和运镜流畅性上的提升。例如在剧本中，主角收到来自 " 平行世界自己 " 的匿名快递，当她疑惑地打开盒子，里面的一支画笔突然发出微光并悬浮起来。

针对这样的分镜头图片，指令可以是：" 运镜从主角惊讶的面部特写缓缓拉至中景，随着她打开盒子的动作，画笔逐渐从盒中升起，悬浮于半空并发出柔和光芒，镜头围绕画笔进行小幅度旋转，同时捕捉主角从疑惑到震惊再到若有所思的表情变化，动作需连贯自然，光影效果突出奇幻氛围 "。可灵 2.5Turbo 能够较好地理解并执行这样包含物体运动、镜头旋转以及人物表情变化的复合指令。

生成视频后，需仔细预览每一段画面，检查人物动作是否符合预期、镜头运动是否流畅自然、是否存在穿帮或画面失真的情况。如果某个片段的动态效果不尽如人意，可以返回调整文本指令的细节，然后重新生成，直至达到理想的动态效果。

第四步

后期处理

剪映一键成片

AI 短剧创作的 " 临门一脚 " 就是后期处理，剪映的 " 一键成片 " 功能，能将零散的视频素材、音效、字幕等元素快速整合，让短剧从 " 半成品 " 成为可直接分享的完整作品。

在剪映首页点击 " 一键成片 " 按钮，选择此前用可灵生成的所有分镜头视频片段，剪映会自动对这些视频进行 AI 分析，根据画面内容和节奏进行初步排序，基本能还原剧本的叙事顺序。

为了确保万无一失，建议在生成前手动检查并调整素材的排列顺序，特别是对于有明确递进关系的短剧来说，顺序的准确性直接影响故事的流畅度。

剪映有丰富的视频模板，这些模板不仅预设了转场特效、滤镜色调，还搭配了背景音乐和音效。例如创作 " 平行世界 " 这样的奇幻短剧，可以在模板库中搜索 " 奇幻 "" 梦境 " 等关键词，选择带有柔和光晕、粒子特效的模板，模板自带的空灵背景音乐和神秘音效，能瞬间将观众带入奇幻的氛围中。

虽然 " 一键成片 " 会根据模板自动匹配背景音乐，但为了让音乐更贴合剧情的起伏变化，建议手动替换适配的音乐。同时，最好为视频添加一些细节音效，如键盘敲击声、开门声、雨滴声等，这些细微的声音元素能让画面更加生动逼真，增强观众的代入感。

排版／季嘉颖

图片／豆包 AI 即梦 AI Deepseek

来源／《IT 时报》公众号 vittimes

读者福利

宙世代

一起剪

相关标签