一、故事文本制作
大语言模型可以选择:ChatGPT、DeepSeek、豆包、千问等等
1、故事大纲
就是故事大概的方向,其实这步也可以省略
2、故事剧本
AI命令:你是经验丰富、有超高短剧编写技术的导演和编剧,有多年的短剧制作经验,我需要你制作一部古装穿越题材的短剧,主要人物要单独设定,要求讲述的是主角为女性的女频故事,故事需要满足短剧的基本结构和基本结构并且逻辑在线,具体可以参考文档的知识,第一集的大致内容我已经做好了规划:xxxx
3、生成分镜脚本
- AI命令:你是专业的编剧和动漫制作专家,将前面的故事剧本,生成动漫分镜脚本,每段分镜之前过渡自然,可以补充一些适合的空镜作为转场,要求包含分镜、运镜信息、人物台词、心里描述、动作、画面描述、时长、配乐风格描述、人物站位等信息,如果有特效,还要加特效描述
-将前面的故事剧本,生成动漫分镜表格式(带镜头号、时长、景别、运镜、画面、台词、音效、备注列),方便直接交给制作团队使用
- 将这个剧本,生成为分镜脚本,要求包含镜号、景别、视角、画面内容描述、人物对话、必要时的人物心理描述、场景、时间
二、生图
软件推荐即梦、豆包、千问、Nonobanana
1、人物图片
生成人物外貌提示词
请帮我生成前面剧本中每个人物的人物设定描述词,需要具备服装、外形、性格、外貌
按剧本生成角色不同时期不同的精神面貌和服装:根据文本中的角色定位,生成符合气质的角色外貌提示词描述
参考脚本的内容,设计脚本中出现人物形象,要求具体到发型、服装、长相、身材特征,要求设计的角色,符合脚本中的身份定位,短剧风格
生成人物正面图
xxx,纯色背景,双手自然垂下,二次元画风,平视镜头
生成人物三视图
根据参考图片,生成人物的三视图,要求包含正立面、侧立面、背立面,在图片右侧生成角色头像特写(或者绘制多种表情),边缘写人物的基本信息(姓名、年龄、身高、体重、性格,音色等等),集中在一张图上,纯白色背景,统一造型,风格:
直接生成AI提示:人物设计,在同一张图片上生成全身站姿三视图,白色背景,22岁世家嫡女女相,鹅蛋脸,琼鼻樱唇,微卷垂肩,气质清冷凌厉,素色暗纹广袖襦群,云纹腰封,步履端庄气场强大,性格理智果决、心思深沉,内心孤苦缺爱,古风权谋冷色调,高清短剧镜头,写实风格
3D国漫写实CG角色设定图,同一人物的全身站姿三视图,正面视图、侧面视图、背面视图,白色背景,无杂物, 23岁男性修仙者,身穿长袍,衣袂飘逸, 《凡人修仙传》同款国漫3D风格,次世代建模质感,Unreal Engine 5渲染,PBR物理材质, 8K超高清,全局光照,柔和自然光,细节丰富,统一造型和光影
2、角色换装
- 根据前面提供的提示词,分别给参考图的人物更换古风服装,并在比例为16:9的同一张图里展示,白色背景
- 将角色的衣服更换为浅灰色的运动套装,鞋子换成白色运动鞋,头发变为短发,其余保持不变
3、场景
文生图
全景,平视视角,古代,唐宋时期样式,将军府的房屋内,大婚现场喜庆布置,白天正午,空镜,无人物
图生图
转换视角,镜头向右转动45度,转动后内容是一部分客栈,以及古代街道
场景和人物结合:参考:xxx,将场景布置成喜庆的接亲现场,内容有站在客栈门口迎亲的人群,抬轿子的队伍,xxxx的人物站在门口,整体场景、景别、视角保持与xxx一致
不同视角
- 基于这个城堡内景,生成城堡内部结构的俯视图
- 基于这张城堡内景的俯视图,改变摄像机的位置和角度,生成不同角度的室内分镜,平视视角,以3X3九宫格的形式呈现给我
3、分镜关键帧图片
可以按前面分镜脚本,配合之前生成的人物和场景生成
三、人物配音
1、文字固定音色
帮忙生成xx的声音提示词,使得我在seedance2生成视频时,能保持角色声音一致一样
结果:45-50 岁中年男性,低沉磁性的低音炮,胸腔共鸣充足,音质略带自然沙哑(非苍老嘶哑),吐字清晰有力,语速不疾不徐(0.88 倍速),每句结尾自然下沉,带着常年独处和行医炼丹的疲惫感,语气平静疏离但不失医者的温和,咬字圆润不生硬,关键时刻字字千钧,自带不怒自威的气场
2、从视频中获取音频
我们其实可以先生成第一段分镜视频,然后从剪辑软件中,提取第一段视频获取的主要人物的音频片段。
3、通过配音平台生成配音
当然也可以通过一些平台生成配音,比如:智声云配
四、视频生成
1、镜头
远景:交代整体环境
全景:交代人物位置,整体动作,人物全身
中景:最多使用,交代人和人关系,一般在人物膝盖以上,叙事
仅景:人物腰部以上,人物大于背景,凸显人物,表达人物情绪
特写:聚焦于面部表情,特定某一物品
空镜:风景,时间的流逝,转场
俯视、平视、仰视、正反打、过肩
2、图生成视频
女主:xxx,女主音频:xxx。场景:xxx。
【全景】
【特写】
【近景】
【中景】
【双人近景】
表情生动,动作富有张力,中文台词,无背景音乐,无字幕,4k超清。
要注意添加音频,这样才可以保持角色音频一致
为了保持视频的连贯性,我们可以将生成的上一个视频尾帧截图,作为下一个视频的首帧图
3、故事板生成视频
无BGM,绝对无字幕,彻底关闭字幕,画面中没有任何形式的文字,包括但不限于字幕、标题、水印、标注,纯画面输出,no subtitles at all, absolutely no text on screen,按照故事板【 @IMG_3 】的要求生成视频,【 @IMG_3 】为故事板,【 @IMG_2 】为林现,【 @IMG_1 】为霍老,霍老声线:
五、视频剪辑
1、根据视频加入背景音、音效
根据整体的情绪添加。比如:悲伤、快乐、激动、燃
比如:添加合适的脚步声、手机铃声、群众讨论声、鸟语花香等等
2、转场过渡
空景转场
六、视频去水印
VSR:https://github.com/YaoFANGUK/video-subtitle-remover
注意:如果视频的水印是动态的话就很难去除,比如像豆包
七、修改声音
1、人物口型匹配
如果你一开始生成的人物是没有声音的,想要通过后期实现音频和人物口型匹配,则可以使用数字人功能,然后上传人物音频和视频
书写提示词:固定镜头,人物着急的说
2、AI自动生成的音色统一
比如你想统一修改旁白的音色,则可以打开剪映,选择视频片段
提取音频,点击音频->换音色
3、生成AI音乐
可以选择使用miniMax:https://www.minimaxi.com/audio
八、视频质量优化
可以使用Topaz Video AI
九、字幕
在剪辑软件中给视频配上字幕
十、故事板
1、生成故事板
你的任务是根据用户的描述,在内部推演严谨的电影视听语言,并直接生成一张图片。
描述:“多机位极速剪辑(Fast-paced multi-shot)。
@image1 (Female Lead) — 沈青漪。青色长裙,黑发平刘海,清冷气质。
@image2 (Red-clad Cultivator) — 红绡。烈焰红裙,肌肤雪白,眼角火纹妆容。
@image3 (Suspended Bronze Temple) — 悬空青铜古庙。
@image4 (Bone Whip) — 燃烧着幽暗紫色毒火的骨鞭。
⚠️空间布局:@image1站在@image3古庙台阶下。@image2在前方半空。
⚠️对白规则:一句台词=一个镜头——台词严格只出现在该角色的特写镜头内。
⚠️本视频严格只有4个镜头——禁止添加额外镜头。
【镜头1】(约3秒:罡气爆发)
机位:50mm中景。
摄影机运动:从平稳瞬间转为强烈的低频震动(模拟能量爆发的物理冲击)。
背景:@image3古庙台阶。
动作:@image1面若冰霜,没有任何多余表情。突然,霸道的金色罡气犹如巨龙苏醒,瞬间自她体内冲天而起!极其强大的金色气浪将周遭肆虐的罡风生生逼退,@image1的青衣与发丝在金光中向后狂舞。
⚠️硬切到镜头2。
【镜头2】(约4秒:火蟒出击)
机位:85mm长焦转35mm广角(急拉)。
摄影机运动:不安、狂暴的手持晃动。
动作:@image2见状,眼中戾气大盛。
微表演细节与台词:她的咬肌(masseter)通过肌肤可见地猛烈搏动。台词:“狂妄!”——重音在"狂",伴随一次极度凶狠的急吸气。
特效动作:她皓腕猛地一抖,手中的@image4瞬间化作一条数十丈长的狰狞紫炎火蟒!巨蟒张开由紫火构成的血盆大口,带着焚江煮海的高温,以撕裂空间之势直扑镜头(@image1面门)!
⚠️硬切到镜头3。
【镜头3】(约4秒:拔地反击)
机位:35mm广角,低视角仰拍(Low angle)。
摄影机运动:高速向上跟拍(Fast track up)。
动作:@image1青衣如流光般,迎着上方压顶而来的漫天紫火冲天而起!她并未拔剑,而是右手剑指并拢。浑身璀璨的金光尽数汇聚于指尖,瞬间向外暴涨,化作一柄极其耀眼、长达十丈的金色光剑!
微表演细节与台词:她眼神孤绝冷酷,死死锁定上方火蟒。台词:“破!”——朱唇轻启,吐字极其清晰且充满爆发力。
⚠️硬切到镜头4。
【镜头4】(约4秒:击碎与对峙)
机位:35mm广角,带环境的全景(Wide Shot)。
摄影机运动:剧烈震颤后瞬间凝固(Freeze-like smooth drift)。
动作与特效:金色光剑以摧枯拉朽之势,一剑劈向紫炎火蟒!极高宽容度的金紫双色爆炸强光瞬间闪耀,火蟒被瞬间劈碎化为漫天紫色火星!
对峙走位:在爆炸光芒衰减的瞬间,@image1已身形如电逼近@image2。@image1悬浮在半空,手中的金色光剑剑尖直指@image2的眉心!两人形成极度紧张的致命对峙。周围空气中弥漫着尚未散去的金色光点与紫色火星。
风格:8K IMAX。超写实顶级VFX。摄影:Emmanuel Lubezki。灯光:纯粹由爆发的金色罡气与紫火双色强光源作为实际光源(practicals)照亮全场。皮肤受光极其真实,左金右紫的高对比环境光。禁电影补光、禁3D塑料感渲染。粒子流体模拟真实:火焰飞溅、空气冲击波折射扭曲必须达到工业级电影水准。镜头:物理电影镜头,180°快门运动模糊。连续性:角色每个镜头完全一致。禁身份漂移。禁字幕。
15秒。”
【最终图片排版与文字标注要求(3:4画幅)】
在一张比例为3:4的画幅中进行结构排版。
🎬 模块一:分镜板(主模块)
- 位置:画面中央靠上,宫格图顺序排列,占据主要画面。
- 内容:根据剧情逻辑推演4个纯视觉分镜图。
示例:
列表展示
第一列:时间轴:[例如:Cut 1 00:00 - 00:03,持续3秒]:
第二列:分镜图
第三列:运镜流程示意图及景别、运镜文字说明(图示表达镜头运动方式)
第四列:“
主体:[主体描述,如角色、物体、环境元素]
动作:[主体动作或行为描述,主体的具体行为、肢体动作或物理动态变化]
描述:[画面构图]
台词:[人物对白及说话语气,若无则填“无”]
音效:[环境、动作音效]
模块二:场景图、风格、光影与物品参考
(横向铺展于画面底部,提供全方位的设定支撑材料与参数)
- 空间与环境设定
人物站位图(必含):[提供俯视视角的简图或详尽描述,清晰标明主要角色在场景中的空间位置、相对距离、视线方向以及摄影机(机位)的摆放位置]
场景参考图:
场景 1(宏观):[大环境、建筑布局、地形地貌或大范围气候特征]
场景 2(微观):[局部环境、内部空间结构或特定角落的陈设] - 道具与物件设定
其他物品参考图:[画面中出现的关键道具、载具、武器或核心物件的特写参考与质感描述] - 光影与色彩设定 (Lighting & Mood)
光影布局:
主光源:[类型、颜色、强度、照射方向]
辅助光:[类型、颜色、强度、补光位置]
环境光:[类型、颜色、强度、整体笼罩氛围]
色彩板:
主色/辅色/点缀色:[明确画面占据最大面积的核心颜色、平衡画面的辅助色以及用于视觉焦点的对比色]
整体风格:[明确具体的艺术风格(如赛博朋克、写实电影感等)、渲染质感及最终的情绪基调]
2、生成视频模板
无BGM,绝对无字幕,彻底关闭字幕,画面中没有任何形式的文字,包括但不限于字幕、标题、水印、标注,纯画面输出,no subtitles at all, absolutely no text on screen,按照故事板【 @IMG_3 】的要求生成视频,【 @IMG_3 】为故事板,【 @IMG_2 】为林现,【 @IMG_1 】为霍老,霍老声线:xxx。风格:国漫3D写实、三渲二半写实渲染,对标《凡人修仙传》画质,质感细腻、人物写实不二次元夸张,场景写实恢弘,光影真实,细节拉满