【AI视频】生成AI短剧、漫剧-Seo优化-塔城地区网站建设公司

一、故事文本制作

大语言模型可以选择：ChatGPT、DeepSeek、豆包、千问等等

1、故事大纲

就是故事大概的方向，其实这步也可以省略

2、故事剧本

AI命令：你是经验丰富、有超高短剧编写技术的导演和编剧，有多年的短剧制作经验，我需要你制作一部古装穿越题材的短剧，主要人物要单独设定，要求讲述的是主角为女性的女频故事，故事需要满足短剧的基本结构和基本结构并且逻辑在线，具体可以参考文档的知识，第一集的大致内容我已经做好了规划：xxxx

3、生成分镜脚本

AI命令：你是专业的编剧和动漫制作专家，将前面的故事剧本，生成动漫分镜脚本，每段分镜之前过渡自然，可以补充一些适合的空镜作为转场，要求包含分镜、运镜信息、人物台词、心里描述、动作、画面描述、时长、配乐风格描述、人物站位等信息，如果有特效，还要加特效描述

-将前面的故事剧本，生成动漫分镜表格式（带镜头号、时长、景别、运镜、画面、台词、音效、备注列），方便直接交给制作团队使用

将这个剧本，生成为分镜脚本，要求包含镜号、景别、视角、画面内容描述、人物对话、必要时的人物心理描述、场景、时间

二、生图

软件推荐即梦、豆包、千问、Nonobanana

1、人物图片

生成人物外貌提示词

请帮我生成前面剧本中每个人物的人物设定描述词，需要具备服装、外形、性格、外貌
按剧本生成角色不同时期不同的精神面貌和服装：根据文本中的角色定位，生成符合气质的角色外貌提示词描述
参考脚本的内容，设计脚本中出现人物形象，要求具体到发型、服装、长相、身材特征，要求设计的角色，符合脚本中的身份定位，短剧风格

生成人物正面图

xxx，纯色背景，双手自然垂下，二次元画风，平视镜头

生成人物三视图

根据参考图片，生成人物的三视图，要求包含正立面、侧立面、背立面，在图片右侧生成角色头像特写（或者绘制多种表情），边缘写人物的基本信息（姓名、年龄、身高、体重、性格，音色等等），集中在一张图上，纯白色背景，统一造型，风格：
直接生成AI提示：人物设计，在同一张图片上生成全身站姿三视图，白色背景，22岁世家嫡女女相，鹅蛋脸，琼鼻樱唇，微卷垂肩，气质清冷凌厉，素色暗纹广袖襦群，云纹腰封，步履端庄气场强大，性格理智果决、心思深沉，内心孤苦缺爱，古风权谋冷色调，高清短剧镜头，写实风格
3D国漫写实CG角色设定图，同一人物的全身站姿三视图，正面视图、侧面视图、背面视图，白色背景，无杂物， 23岁男性修仙者，身穿长袍，衣袂飘逸，《凡人修仙传》同款国漫3D风格，次世代建模质感，Unreal Engine 5渲染，PBR物理材质， 8K超高清，全局光照，柔和自然光，细节丰富，统一造型和光影

2、角色换装

根据前面提供的提示词，分别给参考图的人物更换古风服装，并在比例为16:9的同一张图里展示，白色背景
将角色的衣服更换为浅灰色的运动套装，鞋子换成白色运动鞋，头发变为短发，其余保持不变

3、场景

文生图

全景，平视视角，古代，唐宋时期样式，将军府的房屋内，大婚现场喜庆布置，白天正午，空镜，无人物

图生图

转换视角，镜头向右转动45度，转动后内容是一部分客栈，以及古代街道

场景和人物结合：参考：xxx，将场景布置成喜庆的接亲现场，内容有站在客栈门口迎亲的人群，抬轿子的队伍，xxxx的人物站在门口，整体场景、景别、视角保持与xxx一致

不同视角

基于这个城堡内景，生成城堡内部结构的俯视图
基于这张城堡内景的俯视图，改变摄像机的位置和角度，生成不同角度的室内分镜，平视视角，以3X3九宫格的形式呈现给我

3、分镜关键帧图片

可以按前面分镜脚本，配合之前生成的人物和场景生成

三、人物配音

1、文字固定音色

帮忙生成xx的声音提示词，使得我在seedance2生成视频时，能保持角色声音一致一样

结果：45-50 岁中年男性，低沉磁性的低音炮，胸腔共鸣充足，音质略带自然沙哑（非苍老嘶哑），吐字清晰有力，语速不疾不徐（0.88 倍速），每句结尾自然下沉，带着常年独处和行医炼丹的疲惫感，语气平静疏离但不失医者的温和，咬字圆润不生硬，关键时刻字字千钧，自带不怒自威的气场

2、从视频中获取音频

我们其实可以先生成第一段分镜视频，然后从剪辑软件中，提取第一段视频获取的主要人物的音频片段。

3、通过配音平台生成配音

当然也可以通过一些平台生成配音，比如：智声云配

四、视频生成

1、镜头

远景：交代整体环境
全景：交代人物位置，整体动作，人物全身
中景：最多使用，交代人和人关系，一般在人物膝盖以上，叙事
仅景：人物腰部以上，人物大于背景，凸显人物，表达人物情绪
特写：聚焦于面部表情，特定某一物品
空镜：风景，时间的流逝，转场
俯视、平视、仰视、正反打、过肩

2、图生成视频

女主：xxx，女主音频：xxx。场景：xxx。
【全景】
【特写】
【近景】
【中景】
【双人近景】
表情生动，动作富有张力，中文台词，无背景音乐，无字幕，4k超清。

要注意添加音频，这样才可以保持角色音频一致

为了保持视频的连贯性，我们可以将生成的上一个视频尾帧截图，作为下一个视频的首帧图

3、故事板生成视频

五、视频剪辑

1、根据视频加入背景音、音效

根据整体的情绪添加。比如：悲伤、快乐、激动、燃

比如：添加合适的脚步声、手机铃声、群众讨论声、鸟语花香等等

2、转场过渡

空景转场

六、视频去水印

VSR：https://github.com/YaoFANGUK/video-subtitle-remover

注意：如果视频的水印是动态的话就很难去除，比如像豆包

七、修改声音

1、人物口型匹配

如果你一开始生成的人物是没有声音的，想要通过后期实现音频和人物口型匹配，则可以使用数字人功能，然后上传人物音频和视频

书写提示词：固定镜头，人物着急的说

2、AI自动生成的音色统一

比如你想统一修改旁白的音色，则可以打开剪映，选择视频片段

提取音频，点击音频->换音色

3、生成AI音乐

可以选择使用miniMax：https://www.minimaxi.com/audio

八、视频质量优化

可以使用Topaz Video AI

九、字幕

在剪辑软件中给视频配上字幕

十、故事板

1、生成故事板

你的任务是根据用户的描述，在内部推演严谨的电影视听语言，并直接生成一张图片。

描述：“多机位极速剪辑（Fast-paced multi-shot）。
@image1 (Female Lead) — 沈青漪。青色长裙，黑发平刘海，清冷气质。
@image2 (Red-clad Cultivator) — 红绡。烈焰红裙，肌肤雪白，眼角火纹妆容。
@image3 (Suspended Bronze Temple) — 悬空青铜古庙。
@image4 (Bone Whip) — 燃烧着幽暗紫色毒火的骨鞭。

⚠️空间布局：@image1站在@image3古庙台阶下。@image2在前方半空。
⚠️对白规则：一句台词=一个镜头——台词严格只出现在该角色的特写镜头内。
⚠️本视频严格只有4个镜头——禁止添加额外镜头。

【镜头1】（约3秒：罡气爆发）
机位：50mm中景。
摄影机运动：从平稳瞬间转为强烈的低频震动（模拟能量爆发的物理冲击）。
背景：@image3古庙台阶。
动作：@image1面若冰霜，没有任何多余表情。突然，霸道的金色罡气犹如巨龙苏醒，瞬间自她体内冲天而起！极其强大的金色气浪将周遭肆虐的罡风生生逼退，@image1的青衣与发丝在金光中向后狂舞。
⚠️硬切到镜头2。

【镜头2】（约4秒：火蟒出击）
机位：85mm长焦转35mm广角（急拉）。
摄影机运动：不安、狂暴的手持晃动。
动作：@image2见状，眼中戾气大盛。
微表演细节与台词：她的咬肌（masseter）通过肌肤可见地猛烈搏动。台词：“狂妄！”——重音在"狂"，伴随一次极度凶狠的急吸气。
特效动作：她皓腕猛地一抖，手中的@image4瞬间化作一条数十丈长的狰狞紫炎火蟒！巨蟒张开由紫火构成的血盆大口，带着焚江煮海的高温，以撕裂空间之势直扑镜头（@image1面门）！
⚠️硬切到镜头3。

【镜头3】（约4秒：拔地反击）
机位：35mm广角，低视角仰拍（Low angle）。
摄影机运动：高速向上跟拍（Fast track up）。
动作：@image1青衣如流光般，迎着上方压顶而来的漫天紫火冲天而起！她并未拔剑，而是右手剑指并拢。浑身璀璨的金光尽数汇聚于指尖，瞬间向外暴涨，化作一柄极其耀眼、长达十丈的金色光剑！
微表演细节与台词：她眼神孤绝冷酷，死死锁定上方火蟒。台词：“破！”——朱唇轻启，吐字极其清晰且充满爆发力。
⚠️硬切到镜头4。

【镜头4】（约4秒：击碎与对峙）
机位：35mm广角，带环境的全景（Wide Shot）。
摄影机运动：剧烈震颤后瞬间凝固（Freeze-like smooth drift）。
动作与特效：金色光剑以摧枯拉朽之势，一剑劈向紫炎火蟒！极高宽容度的金紫双色爆炸强光瞬间闪耀，火蟒被瞬间劈碎化为漫天紫色火星！
对峙走位：在爆炸光芒衰减的瞬间，@image1已身形如电逼近@image2。@image1悬浮在半空，手中的金色光剑剑尖直指@image2的眉心！两人形成极度紧张的致命对峙。周围空气中弥漫着尚未散去的金色光点与紫色火星。

风格：8K IMAX。超写实顶级VFX。摄影：Emmanuel Lubezki。灯光：纯粹由爆发的金色罡气与紫火双色强光源作为实际光源（practicals）照亮全场。皮肤受光极其真实，左金右紫的高对比环境光。禁电影补光、禁3D塑料感渲染。粒子流体模拟真实：火焰飞溅、空气冲击波折射扭曲必须达到工业级电影水准。镜头：物理电影镜头，180°快门运动模糊。连续性：角色每个镜头完全一致。禁身份漂移。禁字幕。
15秒。”

【最终图片排版与文字标注要求（3:4画幅）】
在一张比例为3:4的画幅中进行结构排版。

🎬 模块一：分镜板（主模块）

位置：画面中央靠上，宫格图顺序排列，占据主要画面。
内容：根据剧情逻辑推演4个纯视觉分镜图。
示例：
列表展示
第一列：时间轴：[例如：Cut 1 00:00 - 00:03，持续3秒]：
第二列：分镜图
第三列：运镜流程示意图及景别、运镜文字说明（图示表达镜头运动方式）
第四列：“
主体：[主体描述，如角色、物体、环境元素]
动作：[主体动作或行为描述，主体的具体行为、肢体动作或物理动态变化]
描述：[画面构图]
台词：[人物对白及说话语气，若无则填“无”]
音效：[环境、动作音效]

模块二：场景图、风格、光影与物品参考
（横向铺展于画面底部，提供全方位的设定支撑材料与参数）

空间与环境设定
人物站位图（必含）：[提供俯视视角的简图或详尽描述，清晰标明主要角色在场景中的空间位置、相对距离、视线方向以及摄影机（机位）的摆放位置]
场景参考图：
场景 1（宏观）：[大环境、建筑布局、地形地貌或大范围气候特征]
场景 2（微观）：[局部环境、内部空间结构或特定角落的陈设]
道具与物件设定
其他物品参考图：[画面中出现的关键道具、载具、武器或核心物件的特写参考与质感描述]
光影与色彩设定 (Lighting & Mood)
光影布局：
主光源：[类型、颜色、强度、照射方向]
辅助光：[类型、颜色、强度、补光位置]
环境光：[类型、颜色、强度、整体笼罩氛围]
色彩板：
主色/辅色/点缀色：[明确画面占据最大面积的核心颜色、平衡画面的辅助色以及用于视觉焦点的对比色]
整体风格：[明确具体的艺术风格（如赛博朋克、写实电影感等）、渲染质感及最终的情绪基调]

2、生成视频模板

无BGM，绝对无字幕，彻底关闭字幕，画面中没有任何形式的文字，包括但不限于字幕、标题、水印、标注，纯画面输出，no subtitles at all, absolutely no text on screen，按照故事板【 @IMG_3 】的要求生成视频，【 @IMG_3 】为故事板，【 @IMG_2 】为林现，【 @IMG_1 】为霍老，霍老声线：xxx。风格：国漫3D写实、三渲二半写实渲染，对标《凡人修仙传》画质，质感细腻、人物写实不二次元夸张，场景写实恢弘，光影真实，细节拉满