AI 短剧视频智能体怎么分工
AI 短剧制作里的视频智能体不是一次模型调用。它应该先读剧本,建立故事记忆,维护角色连续性,规划分镜和封面,再把确认后的制作说明交给图片或视频模型,最后按剧本规则审核结果。
对 Arcloop 来说,关键问题不是“哪个模型负责生成视频”,而是“剧本怎样变成可复用的故事世界”。视频生成更像后半段动作,前面必须先有剧本拆解和连续性设计。
别把所有任务塞进一个提示词
AI 视频智能体架构应该按制作层来设计,而不是把所有任务塞进一个提示词。一个稳定结构至少包括:剧本拆解、故事记忆、角色连续性手册、分镜规划、视觉渲染、审核回路。每一层都要留下清楚的产物,例如场景表、角色规则、分镜网格、封面说明和修正记录。
中文短剧团队可以把它理解成:不要让模型一边读剧本、一边改角色、一边想封面、一边生成视频。订婚宴、医院走廊、天台反转、戒指线索这些信息应该先拆清楚,再进入视觉制作。

把视频智能体拆成制作层
剧本优先的视频智能体可以分成这些层:
- 读取剧本或分集大纲。
- 把场景、人物、道具、关系变化拆成故事记忆。
- 保存角色和连续性规则。
- 规划分镜、封面、宣传图和镜头参考。
- 根据批准后的制作说明生成图片或视频。
- 用剧本、角色规则和分镜顺序审核结果。
这样做的好处是可调试。封面不对,可以回到剧情看点选择;角色不一致,可以回到角色连续性手册;镜头顺序乱了,可以回到分镜网格。
各层负责什么
| 层级 | 负责什么 | 产物 |
|---|---|---|
| 剧本拆解 | 场景、人物、道具、情绪节点、关系变化 | 场景表、人物表、道具线索 |
| 故事记忆 | 后续资产要复用的故事状态 | 伏笔、秘密、关系状态、地点状态 |
| 角色连续性 | 统一人物外貌、口吻、关系和状态 | 角色连续性手册 |
| 分镜规划 | 决定哪一幕怎么被看见 | 分镜网格 |
| 视觉渲染 | 把批准后的制作说明变成图片或视频参考 | 角色图、场景板、封面、镜头参考 |
| 审核回路 | 找出偏离剧本和角色规则的地方 | 修正意见、连续性检查 |
这套结构不是为了让流程变复杂,而是为了让团队知道问题出在哪。
第一层:剧本拆解和故事记忆
第一层把剧本变成制作笔记。需要提取的不是剧情简介,而是场景顺序、在场人物、可见动作、道具移动、关系变化、情绪转折、视觉候选和连续性风险。
如果你在测试中文长剧本理解,可以看 DeepSeek V4 怎么拆短剧剧本。无论具体模型怎么变,视频智能体都需要能被后续环节引用的故事记忆。
第二层:角色和连续性系统
剧本拆完以后,需要一个地方保存角色规则。它包括:
- 脸型、发型、轮廓和服装范围。
- 说话方式、沉默方式、紧张时的反应。
- 信任、背叛、亲密、控制这些关系状态。
- 道具归属和道具在剧情里的意义。
- 伤口、秘密、身份、情绪状态的变化。
没有这一层,每次做分镜、封面或宣传图都要重新描述人物,角色很容易变成另一个人。
第三层:分镜和资产规划
规划层决定哪些场景值得生成,哪些画面只是过渡,哪些道具必须出现。这里不是直接写图片提示词,而是先做制作判断。
| 判断 | 问题 | 输出 |
|---|---|---|
| 分镜 | 这一场怎么拆成可见节拍 | 分镜网格 |
| 封面 | 本集最强剧情看点是什么 | 封面说明 |
| 宣传图 | 哪个角色关系最值得外显 | 宣传图说明 |
| 镜头参考 | 视频生成前要锁什么构图 | shot reference |
第四层:视觉渲染
视觉渲染可以交给 GPT Image 2 或其他图像/视频模型,但它应该接收明确的制作说明,而不是重新判断剧情。具体可以看 GPT Image 2 怎么做短剧角色图、分镜和封面。
在 Arcloop 的流程里,视觉模型更像执行者:它渲染已经确认的角色规则、分镜顺序和封面看点。
第五层:审核和修正
审核层要问的问题很具体:
- 角色脸型、发型、服装有没有漂?
- 道具是否出现在正确人物手里?
- 反转有没有提前暴露?
- 关系变化有没有体现在站位、距离和表情里?
- 画面是否还能交给视频生成继续使用?
审核结果应该回到具体层级,而不是只写“再高级一点”“更电影感”。
Arcloop 的位置
Arcloop 的目标是把剧本优先的制作链路做成可复用系统:从剧本读解到故事记忆,再到角色、分镜、封面、宣传图和视频计划。准备试这个流程时,可以先在 Arcloop Worlds 建立项目世界,把剧本和角色放进同一个上下文里。
FAQ
AI 视频智能体架构是什么?
它是把剧本读解、故事记忆、角色连续性、分镜规划、视觉渲染和审核拆成多个制作层的系统,而不是一次性生成视频的提示词。
为什么不能直接从剧本生成视频?
短剧剧本里有角色状态、道具伏笔、关系变化和反转顺序。直接生成会让模型自己猜这些内容,结果很难稳定。
图片模型在这个架构里负责什么?
图片模型负责把确认后的制作说明渲染成角色图、场景板、分镜图、封面或镜头参考,不负责替团队决定剧情。
这个架构和 AI 搜索有关系吗?
有。页面把制作流程拆成定义、层级、表格、步骤和 FAQ,AI 搜索更容易抽取“AI 视频智能体怎么做短剧制作”的答案。
Arcloop 会固定依赖某个外部模型吗?
不应该这样表述。更准确的是:Arcloop 把剧本拆解、角色连续性、分镜和视觉生成组织成制作流程,具体模型版本可以随产品配置和官方模型能力变化。



