一小时做一支 90 秒 AI 短剧

使用 2026 年的工具链,从一句故事到一支带 30+ 镜头、角色一致的 90 秒短剧的完整工作流,全程不到 1 小时。

·9 min read·tutorial

网上多数所谓"AI 短片"教程做出来的是 15-30 秒、单角色的小片段,然后就收工了。那不是短剧那是动态情绪板。

真正的短剧需要:

本指南讲的是如何用 2026 年的工具链,在一小时内做完上面所有事。

我们用一个真实样例:一支 90 秒短剧《孟婆嫌我烦》,是一位创作者在 Juying 上 60 分钟做完的。成片有 30+ 镜头,主角全程身份一致,并在亚洲短视频平台上拿到了爆款。

下面就是当时用的那套工作流。

开始之前:你需要什么

工具:

时间预算:总共 60 分钟。

难度:新手。无需 AI 视频经验。

第 1 步:故事点子(1 分钟)

从一句话开始。就一句。

《孟婆》的种子句是:

"孟婆,那位在阴间发忘川汤的女神,被一个一直叽叽喳喳的灵魂烦得不行。"

到这就行。这一阶段不要过度规划,结构是第 2 步的事。

约束条件:选一个所需角色不超过 2-3 个能塞进 60-90 秒的故事。多数爆款短剧只有一两个主角、一个清晰冲突、一个利落收尾。

如果卡壳了,三种适合 AI 短片的故事原型:

第 2 步:生成剧本(5 分钟)

把你那一句话的点子喂给 LLM,用这套提示词:

Write a 90-second short drama script based on this idea:
[your one-sentence idea]

Requirements:
- 8-12 scenes, each scene 6-10 seconds
- Specify camera framing for each scene (close-up, medium, wide, etc.)
- Specify lighting and mood
- Include 2-3 lines of dialogue or voiceover where appropriate
- Build a clear arc: setup, conflict, resolution
- End with a memorable beat

输出会是一份结构化剧本。审一遍,调整节奏,把无聊的场次替换成更强的拍点。不要太较真短剧剧本本来就需要反复改。

《孟婆》里 LLM 给了 11 个场次,作者保留了 9 个,砍掉 2 个不出力的。

第 3 步:锁定主角(5 分钟)

这是大多数工作流跳过、然后后面付出代价的一步。

把一张主角的优质参考图上传到 AI 视频平台。这张参考图应当是:

平台会处理这张参考图并生成一个角色资产一般 30-90 秒。资产生成完,未来所有引用此角色的生成都会用这份锁定的身份。

为什么这步重要:没有角色锁,到第 6 镜你就在看另一个人了。有角色锁,第 30 镜还是第 1 镜里的那个角色。

如果你的平台不支持持久化角色资产,这就是多镜头 AI 短剧的失败点。

《孟婆》的参考图是一张 AI 生成的肖像:一位身着红袍、严肃中带慈祥的老妇人。5 分钟上传、处理、锁定。

第 4 步:自动生成分镜(15 分钟)

现代 AI 视频平台会带分镜规划器。把剧本 + 锁好的角色喂进去,它会逐镜生成包含以下要素的分镜:

如果平台没有自动分镜,你也可以手写每个镜头的 prompt。手写的话给自己留 15-20 分钟。

好的分镜能避免新手常见的"每个镜头看起来都一样"问题。镜头要敢变:特写和中景、全景交替;用推进或跟拍加运动;不要每一场都用平视角。

《孟婆》的分镜在 9 个场次里铺了 30+ 个镜头包括灵魂的反应特写、汤碗的手部细节、阴间环境的全景、透过蒸汽的主观镜头。

第 5 步:生成镜头(30 分钟)

这一步耗时最长,但大部分是空闲时间平台在并行跑。

点生成。走开。30 分钟后回来。

背后发生的事:

如果你的平台没有并行生成或专属算力,这一步可能要几个小时而不是几十分钟。这就是 60 分钟工作流和"做一天"工作流的区别。

《孟婆》这一步用了 28 分钟30 个镜头,全部并行,全部一致。

第 6 步:组装(3 分钟)

多数现代 AI 视频平台会自动出一份粗剪按分镜顺序把所有镜头串起来。

过一遍粗剪,重点看:

真正的连戏问题,单镜重生。节奏问题,在平台编辑器里裁切或延长。

《孟婆》这步重生了两个镜头,结尾镜头剪掉 1 秒,总共 3 分钟。

第 7 步:字幕擦除 + 超分(5 分钟)

生成的 AI 视频通常会有些细微瑕疵:小段错乱文本、类似水印的元素、偶发异常。智能擦除工具能清掉这些而不破坏底层画面。

然后做超分。4K 输出比 1080p 看起来更专业,特别是在大屏现代设备上播放短视频。

这两步在集成型平台里都已内建。如果用的是分散工具,这一步要 15-30 分钟而不是 5 分钟。

第 8 步:最后润色(1 分钟)

加上:

《孟婆》的最后一笔:一张中文片头卡,加一个署名作者和 Juying 的水印。

总时间核对

步骤时间
1. 故事点子1 分钟
2. 剧本生成5 分钟
3. 角色锁定5 分钟
4. 分镜15 分钟
5. 生成镜头30 分钟(大多空闲)
6. 组装3 分钟
7. 字幕擦除 + 超分5 分钟
8. 最后润色1 分钟
合计~65 分钟

第 5 步的 30 分钟基本是空闲。开干然后走开的话,有效操作时间大约 35 分钟。

提升画质的几个技巧

选对参考图。参考图差 = 角色锁定差。模糊或光线奇怪的参考图会让每一镜都跟着踩雷。值得花 5 分钟挑一张对的。

大胆变化构图。新手什么都用平视中景。老手会用特写、低角度、高角度、跟拍。镜头多样性才是电影感。

善用沉默。90 秒短剧不需要 90 秒台词,最好的短剧里有一半是沉默的反应戏。

动手前先看真短片。抖音和 YouTube Shorts 上随便搜"短片",第一页就有不少电影感很强的作品。直接学他们的节奏。

不要和模型死磕。如果剧本要做 AI 难做的事,简化它。顺着模型擅长的来。

常见问题

这个工作流能不能处理多角色?

可以。在第 3 步开头锁 2-3 个角色,prompt 里按名字引用。注意:两个角色同框且特征相近时(同性别、同年龄段、同族裔),同框镜头里大约 10% 会出现身份串台,需要人工补救一遍。

这套对更长的视频(5 分钟以上)有用吗?

理论上可以,但:成本线性增长,超过 ~3 分钟的叙事连贯性目前真的很难。我们见过创作者把三段 90 秒拼成 5 分钟一集。纯 5 分钟端到端能做,但比 90 秒费力得多。

如果我画不出来也拍不到参考图怎么办?

用图像 AI 生成一张(Midjourney、DALL-E、Stable Diffusion)。挑最贴合你脑中角色形象的那张,作为视频步骤的参考图。

我的平台没有角色锁,还能做吗?

能做,但预计要花 3-5 倍的时间在一致性修复上。变通方案:

对叙事类作品来说,换一个原生支持角色一致性的工具通常更划算。

整套要花多少 credits / 钱?

因平台而异。在 Juying 上,一支 90 秒、30 镜头的项目通常用 200-400 credits,免费档(500 credits/月)就够,Pro($49/月含 3000 credits)几乎可以忽略不计。

按片计费的平台上,根据时长和画质设置不同,一般每个项目 $5-30。

没人会告诉你的事

60 分钟工作流是真的,但多数新手第一次做要 3-4 小时。慢的不是 AI,是:

做完 2-3 个项目,工作流就压到 1 小时以内。做完 5 个项目,能压到 40 分钟。

试试这个工作流

Juying 端到端支持上面整套工作流,提供免费档。如果你用这个工作流做出了什么作品,欢迎给我们看看。

相关阅读