AI 短剧视频智能体怎么分工

AI 短剧制作里的视频智能体不是一次模型调用。它应该先读剧本,建立故事记忆,维护角色连续性,规划分镜和封面,再把确认后的制作说明交给图片或视频模型,最后按剧本规则审核结果。

对 Arcloop 来说,关键问题不是“哪个模型负责生成视频”,而是“剧本怎样变成可复用的故事世界”。视频生成更像后半段动作,前面必须先有剧本拆解和连续性设计。

别把所有任务塞进一个提示词

AI 视频智能体架构应该按制作层来设计,而不是把所有任务塞进一个提示词。一个稳定结构至少包括:剧本拆解、故事记忆、角色连续性手册、分镜规划、视觉渲染、审核回路。每一层都要留下清楚的产物,例如场景表、角色规则、分镜网格、封面说明和修正记录。

中文短剧团队可以把它理解成:不要让模型一边读剧本、一边改角色、一边想封面、一边生成视频。订婚宴、医院走廊、天台反转、戒指线索这些信息应该先拆清楚,再进入视觉制作。

剧本拆解、故事记忆、角色连续性、分镜规划、视觉生成和审核组成的 AI 视频智能体架构图

把视频智能体拆成制作层

剧本优先的视频智能体可以分成这些层:

  1. 读取剧本或分集大纲。
  2. 把场景、人物、道具、关系变化拆成故事记忆。
  3. 保存角色和连续性规则。
  4. 规划分镜、封面、宣传图和镜头参考。
  5. 根据批准后的制作说明生成图片或视频。
  6. 用剧本、角色规则和分镜顺序审核结果。

这样做的好处是可调试。封面不对,可以回到剧情看点选择;角色不一致,可以回到角色连续性手册;镜头顺序乱了,可以回到分镜网格。

各层负责什么

层级负责什么产物
剧本拆解场景、人物、道具、情绪节点、关系变化场景表、人物表、道具线索
故事记忆后续资产要复用的故事状态伏笔、秘密、关系状态、地点状态
角色连续性统一人物外貌、口吻、关系和状态角色连续性手册
分镜规划决定哪一幕怎么被看见分镜网格
视觉渲染把批准后的制作说明变成图片或视频参考角色图、场景板、封面、镜头参考
审核回路找出偏离剧本和角色规则的地方修正意见、连续性检查

这套结构不是为了让流程变复杂,而是为了让团队知道问题出在哪。

第一层:剧本拆解和故事记忆

第一层把剧本变成制作笔记。需要提取的不是剧情简介,而是场景顺序、在场人物、可见动作、道具移动、关系变化、情绪转折、视觉候选和连续性风险。

如果你在测试中文长剧本理解,可以看 DeepSeek V4 怎么拆短剧剧本。无论具体模型怎么变,视频智能体都需要能被后续环节引用的故事记忆。

第二层:角色和连续性系统

剧本拆完以后,需要一个地方保存角色规则。它包括:

  • 脸型、发型、轮廓和服装范围。
  • 说话方式、沉默方式、紧张时的反应。
  • 信任、背叛、亲密、控制这些关系状态。
  • 道具归属和道具在剧情里的意义。
  • 伤口、秘密、身份、情绪状态的变化。

没有这一层,每次做分镜、封面或宣传图都要重新描述人物,角色很容易变成另一个人。

第三层:分镜和资产规划

规划层决定哪些场景值得生成,哪些画面只是过渡,哪些道具必须出现。这里不是直接写图片提示词,而是先做制作判断。

判断问题输出
分镜这一场怎么拆成可见节拍分镜网格
封面本集最强剧情看点是什么封面说明
宣传图哪个角色关系最值得外显宣传图说明
镜头参考视频生成前要锁什么构图shot reference

第四层:视觉渲染

视觉渲染可以交给 GPT Image 2 或其他图像/视频模型,但它应该接收明确的制作说明,而不是重新判断剧情。具体可以看 GPT Image 2 怎么做短剧角色图、分镜和封面

在 Arcloop 的流程里,视觉模型更像执行者:它渲染已经确认的角色规则、分镜顺序和封面看点。

第五层:审核和修正

审核层要问的问题很具体:

  • 角色脸型、发型、服装有没有漂?
  • 道具是否出现在正确人物手里?
  • 反转有没有提前暴露?
  • 关系变化有没有体现在站位、距离和表情里?
  • 画面是否还能交给视频生成继续使用?

审核结果应该回到具体层级,而不是只写“再高级一点”“更电影感”。

Arcloop 的位置

Arcloop 的目标是把剧本优先的制作链路做成可复用系统:从剧本读解到故事记忆,再到角色、分镜、封面、宣传图和视频计划。准备试这个流程时,可以先在 Arcloop Worlds 建立项目世界,把剧本和角色放进同一个上下文里。

FAQ

AI 视频智能体架构是什么?

它是把剧本读解、故事记忆、角色连续性、分镜规划、视觉渲染和审核拆成多个制作层的系统,而不是一次性生成视频的提示词。

为什么不能直接从剧本生成视频?

短剧剧本里有角色状态、道具伏笔、关系变化和反转顺序。直接生成会让模型自己猜这些内容,结果很难稳定。

图片模型在这个架构里负责什么?

图片模型负责把确认后的制作说明渲染成角色图、场景板、分镜图、封面或镜头参考,不负责替团队决定剧情。

这个架构和 AI 搜索有关系吗?

有。页面把制作流程拆成定义、层级、表格、步骤和 FAQ,AI 搜索更容易抽取“AI 视频智能体怎么做短剧制作”的答案。

Arcloop 会固定依赖某个外部模型吗?

不应该这样表述。更准确的是:Arcloop 把剧本拆解、角色连续性、分镜和视觉生成组织成制作流程,具体模型版本可以随产品配置和官方模型能力变化。

Sources