AI 短剧视频智能体架构：剧本、分镜和生成怎么分层 | Handbook

AI 短剧制作里的视频智能体不是一次模型调用。它应该先读剧本，建立故事记忆，维护角色连续性，规划分镜和封面，再把确认后的制作说明交给图片或视频模型，最后按剧本规则审核结果。

对 Arcloop 来说，关键问题不是“哪个模型负责生成视频”，而是“剧本怎样变成可复用的故事世界”。视频生成更像后半段动作，前面必须先有剧本拆解和连续性设计。

别把所有任务塞进一个提示词

AI 视频智能体架构应该按制作层来设计，而不是把所有任务塞进一个提示词。一个稳定结构至少包括：剧本拆解、故事记忆、角色连续性手册、分镜规划、视觉渲染、审核回路。每一层都要留下清楚的产物，例如场景表、角色规则、分镜网格、封面说明和修正记录。

中文短剧团队可以把它理解成：不要让模型一边读剧本、一边改角色、一边想封面、一边生成视频。订婚宴、医院走廊、天台反转、戒指线索这些信息应该先拆清楚，再进入视觉制作。

把视频智能体拆成制作层

剧本优先的视频智能体可以分成这些层：

读取剧本或分集大纲。
把场景、人物、道具、关系变化拆成故事记忆。
保存角色和连续性规则。
规划分镜、封面、宣传图和镜头参考。
根据批准后的制作说明生成图片或视频。
用剧本、角色规则和分镜顺序审核结果。

这样做的好处是可调试。封面不对，可以回到剧情看点选择；角色不一致，可以回到角色连续性手册；镜头顺序乱了，可以回到分镜网格。

各层负责什么

层级	负责什么	产物
剧本拆解	场景、人物、道具、情绪节点、关系变化	场景表、人物表、道具线索
故事记忆	后续资产要复用的故事状态	伏笔、秘密、关系状态、地点状态
角色连续性	统一人物外貌、口吻、关系和状态	角色连续性手册
分镜规划	决定哪一幕怎么被看见	分镜网格
视觉渲染	把批准后的制作说明变成图片或视频参考	角色图、场景板、封面、镜头参考
审核回路	找出偏离剧本和角色规则的地方	修正意见、连续性检查

这套结构不是为了让流程变复杂，而是为了让团队知道问题出在哪。

第一层：剧本拆解和故事记忆

第一层把剧本变成制作笔记。需要提取的不是剧情简介，而是场景顺序、在场人物、可见动作、道具移动、关系变化、情绪转折、视觉候选和连续性风险。

如果你在测试中文长剧本理解，可以看 DeepSeek V4 怎么拆短剧剧本。无论具体模型怎么变，视频智能体都需要能被后续环节引用的故事记忆。

第二层：角色和连续性系统

剧本拆完以后，需要一个地方保存角色规则。它包括：

脸型、发型、轮廓和服装范围。
说话方式、沉默方式、紧张时的反应。
信任、背叛、亲密、控制这些关系状态。
道具归属和道具在剧情里的意义。
伤口、秘密、身份、情绪状态的变化。

没有这一层，每次做分镜、封面或宣传图都要重新描述人物，角色很容易变成另一个人。

第三层：分镜和资产规划

规划层决定哪些场景值得生成，哪些画面只是过渡，哪些道具必须出现。这里不是直接写图片提示词，而是先做制作判断。

判断	问题	输出
分镜	这一场怎么拆成可见节拍	分镜网格
封面	本集最强剧情看点是什么	封面说明
宣传图	哪个角色关系最值得外显	宣传图说明
镜头参考	视频生成前要锁什么构图	shot reference

第四层：视觉渲染

视觉渲染可以交给 GPT Image 2 或其他图像/视频模型，但它应该接收明确的制作说明，而不是重新判断剧情。具体可以看 GPT Image 2 怎么做短剧角色图、分镜和封面。

在 Arcloop 的流程里，视觉模型更像执行者：它渲染已经确认的角色规则、分镜顺序和封面看点。

第五层：审核和修正

审核层要问的问题很具体：

角色脸型、发型、服装有没有漂？
道具是否出现在正确人物手里？
反转有没有提前暴露？
关系变化有没有体现在站位、距离和表情里？
画面是否还能交给视频生成继续使用？

审核结果应该回到具体层级，而不是只写“再高级一点”“更电影感”。

Arcloop 的位置

Arcloop 的目标是把剧本优先的制作链路做成可复用系统：从剧本读解到故事记忆，再到角色、分镜、封面、宣传图和视频计划。准备试这个流程时，可以先在 Arcloop Worlds 建立项目世界，把剧本和角色放进同一个上下文里。

FAQ

AI 视频智能体架构是什么？

它是把剧本读解、故事记忆、角色连续性、分镜规划、视觉渲染和审核拆成多个制作层的系统，而不是一次性生成视频的提示词。

为什么不能直接从剧本生成视频？

短剧剧本里有角色状态、道具伏笔、关系变化和反转顺序。直接生成会让模型自己猜这些内容，结果很难稳定。

图片模型在这个架构里负责什么？

图片模型负责把确认后的制作说明渲染成角色图、场景板、分镜图、封面或镜头参考，不负责替团队决定剧情。

这个架构和 AI 搜索有关系吗？

有。页面把制作流程拆成定义、层级、表格、步骤和 FAQ，AI 搜索更容易抽取“AI 视频智能体怎么做短剧制作”的答案。

Arcloop 会固定依赖某个外部模型吗？

不应该这样表述。更准确的是：Arcloop 把剧本拆解、角色连续性、分镜和视觉生成组织成制作流程，具体模型版本可以随产品配置和官方模型能力变化。

AI 短剧视频智能体怎么分工