Video-Gen 项目族交接文档

AI 视频生成 Skill 全家桶 — 核心流程、架构决策、已知坑点与运维指南

📅 编写日期：2026-04-16 ✍️ 作者：Taylor Zhou 📋 休假时间：4月17日 – 5月初 🔖 版本：v1.2（CN/EN 完全对齐）

01 · GitHub 仓库总览

项目族共包含 6 个 Git 仓库，按重要程度排列如下：

🎬

英文版本 — migoo 线上接入的版本，建议后续所有改动都基于这个仓库。支持 Seedance / Kling / Kling-Omni 后端，ElevenLabs TTS 优先 + Gemini TTS 兜底，smart-narration 智能旁白，Veo3 已废弃。

⭐ 主仓库 · 线上版本

🎬

video-gen

中文版本 — 功能与英文版已完全对齐（2026-04-16）。代码和文档结构一致，固定中文回复。可作为中文语境下的阅读参考。

已对齐 · 中文参考

🧪

video-gen-test

自动化测试框架。并发运行多个 Case，自动回答交互问题（风格/时长/比例等），执行到 Phase 3 分镜设计，生成 HTML 测试报告。

自动化测试

🔭

video-agent-monitor

多媒体生成项目/Skill 自动监测工具。支持视频、图像、TTS、音乐四大领域，从 GitHub / Skillhub / Clawhub 三个渠道定期检索，自动去重生成分析报告。

监控工具

🎞

video-understanding

AI 视频拉片工具。使用 Gemini 分析视频内容，提取镜头语言（运镜、构图、光影色调），生成完整剧本（分幕 + 对白/OS + 动作描述）。支持视频 URL 和本地文件，产出可直接喂给 /video-gen 做二次创作。

拉片工具 · video-gen 上游

🗂

video-gen-veo3

早期纯 Veo3 版本（Google Veo 3.1 Fast）。时长固定 4/6/8s、最高 720p。已不再主动维护，Veo3 在主仓库中已标记 Deprecated。

已归档 · 仅参考

建议

后续所有开发都在 video-gen-en 上进行。两个版本的文档已完全对齐（2026-04-16），功能描述一致。主要差异为：
a. 中文版锁定只会用中文回复用户，英文版根据用户语言来回复
b. 英文版整个代码库里不存在中文、中国平台名

02 · 整体架构与技术栈

核心文件

文件	职责	说明
`SKILL.md`	Skill 定义 / Agent 行为指南	定义 Phase 0-5 全流程、交互卡片、后端选择逻辑
`video_gen_tools.py`	API 调用层	video/music/tts/image/vision/setup/check/validate 子命令
`video_gen_editor.py`	FFmpeg 剪辑层	concat/mix/transition/color/narration/smart-narration 子命令
`reference/*.md`	参考文档	storyboard-spec / prompt-guide / backend-guide / consistency-guide / api-reference
`config.json`	API Key 持久化	存储所有 provider 的 key，不进 Git

依赖

FFmpeg 6.0+ — 视频拼接、转场、调色、音频混合的核心
Python 3.9+ + httpx — 异步 HTTP 调用各 AI API
Gemini (google-genai) — 图片生成、视觉分析、TTS 兜底
Suno API — BGM 音乐生成
ElevenLabs — 高质量 TTS 旁白（优先），Gemini TTS 兜底

设计理念

Director Agent 模式：SKILL.md 定义了一个 "导演 Agent" 的完整行为规范。Agent（Claude/其他 LLM）读取 SKILL.md 后，按 Phase 0→5 顺序与用户交互、调用 CLI 工具、最终交付成品视频。

核心原则：灵活规划 + 稳健执行。规划阶段（Phase 1-3）产出结构化 JSON，执行阶段（Phase 4-5）由 JSON 驱动，确保可复现。

03 · 核心工作流 (Phase 0–5)

配置检查

Provider 选择
API Key 配置
环境检测

素材收集

目录扫描
视觉分析
人物识别

创意确认

7 个问题卡片
角色参考图
真人检测

分镜设计

storyboard.json
一致性 Review
用户确认

执行生成

API 并发调用
音乐/旁白
进度跟踪

剪辑输出

拼接 + 转场
旁白插入
配乐 + 输出

Phase 0 — Provider 配置 + 环境检查

运行 python video_gen_tools.py setup 查看所有 provider 配置状态
无任何视频 API key → 引导用户选择 Seedance / Kling Official / Kling via fal
用户提供 key 后通过 setup --set-key 保存到 config.json
运行 python video_gen_tools.py check 确认 FFmpeg、Python、httpx 就绪

关键规则

没有任何可用的视频 API key 时，禁止进入 Phase 1。必须在此阶段完成至少一个 provider 的配置。

Phase 1 — 素材收集与分析

素材来源：目录路径 / 视频文件 / 无素材（纯创意模式）

视觉分析三级 fallback：

Read 工具直接读取图片（多模态模型）
内置 VisionClient 调用视觉模型
询问用户手动描述

产出：state.json / analysis.json / personas.json

人物识别后只注册基本信息，reference_image 为 null 的角色由 Phase 2 补充。

Phase 2 — 创意确认（7 个问题卡片 + 真人检测）

通过问题卡片与用户交互，收集 7 项关键信息：

#	问题	影响范围
1	视频风格（电影/Vlog/广告/纪录片/实验）	调色、转场、配乐基调
2	目标时长（15s/30s/60s/自定义）	分镜数量和节奏
3	画面比例（9:16/16:9/1:1）	所有生成和剪辑命令
4	配乐需求	是否调用 Suno
5	旁白/解说	TTS 生成、时间点规划
6	角色画风（realistic/anime/mixed）	参考图风格、是否禁用 Seedance
7	角色参考图来源	AI 生成三视图 / 上传 / 纯文字

真人素材检测（Phase 2 末尾，非常关键）

visual_style = realistic + 有角色参考图 → 禁用 Seedance，强制使用 Kling-Omni。
这是一个保守策略：Seedance 对真人照片的审核行为不稳定，实际测试表明时而通过时而被 content_policy_violation 拒绝。为避免生产事故统一禁用。

产出：creative.json（含 backend_selection 决策）/ 更新后的 personas.json

Phase 3 — 分镜设计（核心！）

生成前必须阅读三个参考文档：storyboard-spec.md / prompt-guide.md / backend-guide.md

关键流程

从 personas.json 同步角色信息到 storyboard
读取 creative.json 的 backend_selection，自动选择后端
按 scenes[] → shots[] 两层结构设计分镜
自动执行一致性 Review（时间光照、空间元素、人物妆造、image/video 匹配、跨 scene 连续性）
必须用户确认后才能进入 Phase 4

Seedance vs Kling-Omni 分镜区别（很容易搞错）

维度	Seedance	Kling-Omni
分镜图级别	scene-level（一张图覆盖多 shots）	shot-level（每 shot 一张图）
执行方式	一次 API 调用生成整个 scene	逐 shot 调用 API
输出	1 个视频	N 个视频片段
shot 里需要什么	video_prompt + reference_images	video_prompt + image_prompt + frame_path

产出：storyboard/storyboard.json

Phase 4 — 执行生成

执行前检查（全部必须通过）

python video_gen_tools.py validate --storyboard ... 校验 schema
参考图尺寸检查（<720px 放大、>2048px 缩小）
Storyboard 链路一致性检查（Omni 是否有 shot-level 结构等）

执行规则

第一个 API 调用单独执行，确认成功后才并发
并发不超过 3 个
失败重试最多 2 次，然后询问用户
实时更新 state.json

执行顺序

视频片段生成 → 音乐生成 → 旁白生成（如有）→ 进入 Phase 5

产出：generated/videos/*.mp4 / generated/music/*.mp3 / generated/narration/*.mp3

Phase 5 — 剪辑输出

合成流程

拼接（自动归一化）→ 旁白插入 → 转场 → 调色 → 配乐混音 → 输出 final.mp4

音频混音关键规则

FFmpeg amix 必须使用 normalize=0

不加这个参数，FFmpeg 的自动均一化会把所有音轨压到同一音量，导致 BGM 把人声盖掉。
video_gen_editor.py 的 mix_audio() 函数已硬编码 normalize=0（约第 470 行）。千万不要动这行。

音频类型	推荐音量	说明
视频环境声/同期声	0.8	保留原始音频氛围
旁白/解说	1.5–2.0	确保人声清晰
BGM	0.1–0.15（Vlog）/ 0.2–0.3（电影）/ 0.5–0.7（MV）	按视频类型灵活调

产出：output/final.mp4

04 · 后端选择与决策逻辑

四大后端能力对比

Seedance 2

Provider: fal > piapi

✓ 智能切镜（时间分段 prompt 自动触发）
✓ 多参考图（最多 9 张）
✓ 首尾帧控制
✓ 音画同出
✓ 时长 4-15s（任意整数）
✗ 最高仅 720p
✗ 真人审核不稳定

Kling-Omni

Provider: official / fal

✓ 多参考图（<<>> 引用）
✓ 角色一致性好
✓ 无真人审核限制
✓ multi-shot 支持
✓ 最高 1080p
✗ 无首帧精确控制
✗ 需 shot-level 逐个调用

Kling 3.0

Provider: official / fal

✓ 首帧精确控制（--image）
✓ 首尾帧控制
✓ 最高 1080p
✓ multi-shot
✗ 无多参考图能力

~~Veo3~~

Provider: compass 已废弃

时长仅 4/6/8s（枚举值）
最高 720p
无 multi-shot
无多参考图
两个版本均已统一标记 Deprecated

场景驱动选择决策表

场景	真人素材	优先后端	兜底后端	原因
虚构片/短剧	无（动漫）	Seedance	Kling-Omni	智能切镜 + 多参考图
虚构片/短剧	有真人	Kling-Omni	—	真人素材禁用 Seedance
广告片（无素材）	无	Seedance	Kling-Omni	长镜头 + 智能切镜
广告片（有素材）	有	Kling-3.0	—	首帧精确控制
MV 短片	无	Seedance	Kling-Omni	长镜头 + 音乐驱动
MV 短片	有真人	Kling-Omni	—	真人素材禁用 Seedance
Vlog/写实类	有	Kling-3.0	—	首帧精确控制

核心原则（优先级从高到低）

1. 真人素材检测 → 禁用 Seedance（顶层过滤）
2. 同一项目使用同一模型，不混用
3. 虚构片不使用 text2video
4. 需要首帧控制时只能用 Kling
5. Seedance/Omni 的分镜图是参考，不是首帧精确控制

05 · 降级链路与容错策略

降级路径

Seedance

→

Kling-Omni

→

Kling img2video

→

Kling text2video

降级路径	触发条件	损失	操作
Seedance → Kling-Omni	Seedance 超时/审核/429	失去智能切镜	需重新按 shot-level 规划分镜
Kling-Omni → Kling img2video	Omni 429/402	失去多参考图，角色一致性降低	用 Gemini 生成分镜图做首帧
Kling img2video → text2video	无首帧图可用	失去首帧控制	纯文字生成

降级前提条件

1. 已重试一次仍失败（Seedance 超时需等待 10 分钟）
2. 用户明确同意降级（不能自动降级）
3. 降级后仍有可用后端

Seedance → Kling-Omni 降级要点

这不是简单的字段替换！Seedance 是 scene-level（一次调用生成整个 scene），Kling-Omni 是 shot-level（逐 shot 调用）。降级需要：

保留 storyboard 的创意设计（风格、时长、角色等）
为每个 shot 新增 image_prompt 和 frame_path
先用 Gemini 为每个 shot 生成分镜图
再逐 shot 调用 Kling-Omni API

API 错误类型处理

错误类型	处理方式
429 并发限制	询问用户：等待 60s 重试 / 降级 / 取消
402 余额不足	告知充值，或降级到其他后端
网络超时	重试 2 次，失败后询问
content_policy_violation	通常是 Seedance 真人审核问题，降级到 Kling-Omni

06 · 中文版 vs 英文版差异

两个版本核心 flow 相同（Phase 0-5），代码完全一致。截至 2026-04-16 SKILL.md 文档已全部对齐。

已对齐项（全部完成）

维度	对齐前状态	对齐后状态
TTS 链路	EN 文档仅有基础 `--voice-style` 参数	✅ EN 已补齐 ElevenLabs 优先链路（voice 映射、stability、文本增强、voice-id 复用、Gemini 兜底）
旁白插入命令	EN 文档仅描述 `narration`（硬插入）	✅ EN 已改为 `smart-narration`（自动测量时长、不重叠插入）
Vlog 兜底后端	CN 无兜底（—），EN 写了 Kling-Omni	✅ 统一为 —（无兜底）
Veo3 状态	CN 无 Veo3 标注，EN 有多处 deprecated	✅ 两版 SKILL.md + backend-guide 均统一标记 Deprecated
storyboard 场景精确化	EN 缺少 time_state / spatial_setting 精确化规范	✅ EN 已补充精确化要求和合格/不合格对比表
人物妆造锁定字段	EN 缺少 locked_costume / locked_hairstyle / locked_makeup	✅ EN 已补充字段定义和 costume_scope 说明
TTS 音色表	两版均引用已废弃的火山引擎 TTS	✅ 统一更新为 ElevenLabs + Gemini 映射表
EN 工具路径	EN api-reference.md 全部引用 video-gen/ 路径	✅ 24 处路径已修正为 video-gen-en/
一致性审查模板	CN 内嵌完整 Review Prompt，EN 仅引用外部文件	✅ EN 已补齐完整 prompt 模板（5 项审查原则 + 输出格式）
Phase 2 Q7 检查逻辑	CN 有 PersonaManager 代码片段，EN 省略	✅ EN 已补充 Python 检查逻辑
首帧控制描述	CN "只能用 Kling"，EN "Kling or Vidu"	✅ 统一为 "only Kling"
text2video / 纯文字条款	EN 多了 "Can use text2video"，CN 说"后续流程无需改动"	✅ EN 对齐为"后续流程无需改动"
prompt-guide 章节顺序	CN 先三视图后附录，EN 先附录后三视图	✅ EN 调整为先三视图后附录
prompt-guide Kling 模板	EN 末尾有多余反引号 ``````	✅ 修复为正确的 ```
EN 表格 "Chinese" 描述	prompt-guide 写 "Chinese description"，storyboard-spec 写 "Chinese display name"	✅ 统一改为 "display name"
旁白字段名	两版 SKILL.md 用 `overall_time_range`，storyboard-spec 用 `time_range`	✅ SKILL.md 统一为 `time_range`，与 spec 一致
CN 重复规则块	CN 有两个 "关键规则" 段落（内容略有矛盾）	✅ 合并为一个，消除 Kling/Vidu 矛盾描述

仍存在的差异（预期差异，无需对齐）

维度	video-gen（中文版）	video-gen-en（英文版 / 线上版）
回复语言	锁定中文回复	根据用户语言自动切换
代码库语言	含中文文案、中国平台名（如"快手出品"等）	整个代码库不存在中文、中国平台名

完全对齐

代码层面两个版本始终一致（video_gen_tools.py / video_gen_editor.py 完全相同）。文档层面（SKILL.md + 全部 reference/*.md）现已完全对齐，仅保留语言和 UI 文案差异。Agent 读取任一版本 SKILL.md 后均能正确调用所有已实现的功能。

07 · 历史踩坑记录（重点！）

高危 Seedance 真人审核不稳定 → content_policy_violation

Seedance 后端对真人照片的内容审核行为极不稳定：相同的真人参考图，有时通过有时被拒。真人写实风格（visual_style=realistic）+ 角色参考图组合会偶发触发 content_policy_violation。

✅ 解决方案：保守策略，realistic + 有参考图 → 统一禁用 Seedance，强制走 Kling-Omni。

高危各 Provider 的真人支持和生成速度差异巨大

Provider + 后端	真人支持	生成速度	备注
fal Seedance	✗ 完全不支持	~2 min	速度快但真人一律被拒
piapi Seedance	时灵时不灵	很慢，成功率低	偶尔通过，不可依赖
fal Kling-Omni / Kling	✓	~8 min	稳定但等待时间长

fal 的 Seedance 虽然速度最快，但真人场景完全不可用。piapi 的 Seedance 表现不稳定，实测成功率很低且生成极慢。fal 的 Kling 系列真人支持稳定，但单次生成约 8 分钟，并发时需注意超时设置。

✅ 解决方案：真人场景直接走 Kling-Omni（fal），预留 8-10 分钟超时；Seedance 只用于非真人虚构内容，优先走 fal（速度快）。

高危 Kling 生成视频经常没有声音（已修复）

根因：--audio 参数定义为 store_true（默认 False），Agent 不传就是静音。而 Seedance 的 FalSeedanceClient.submit_task 方法签名默认 generate_audio=True 且 CLI 未覆盖，所以 Seedance 天然有声音。这个不对称导致从 Seedance 切到 Kling 后 Agent 不会主动加 --audio，视频就没声了。

更深层问题：storyboard.json 的 audio.enabled 字段在代码里从未被读取（只读了 aspect_ratio），所以即使分镜标了 enabled: true，Kling 调用依然静音。

✅ 解决方案（4/16 已修复）：--audio 改为默认开启（default=True），新增 --no-audio 用于显式关闭。所有后端行为统一：默认带声音，不需要声音时用 --no-audio，后续剪辑阶段可去掉音轨。
高危 FFmpeg amix 不加 normalize=0 会压爆音量

FFmpeg 的 amix 滤镜默认开启自动均一化（normalize=1），会把所有音轨音量压到相同水平，导致 BGM 音量与人声一样大，人声被盖掉，最终视频完全不能用。

✅ 解决方案：mix_audio() 已硬编码 normalize=0。绝对不能移除。
高危 Seedance scene-level 分镜图误用在 Kling-Omni shot-level 链路

Seedance 的分镜图是 scene-level（一张图覆盖多 shots），Kling-Omni 需要 shot-level（每 shot 一张图）。如果在 Seedance → Kling-Omni 降级时直接复用 Seedance 的 scene 分镜图，会导致所有 shots 画面雷同。

✅ 解决方案：Phase 4 启动前有链路一致性检查，检测 Kling-Omni 的 shot 是否都有 image_prompt 和 frame_path。不通过会回退到 Phase 3 重写。
高危 Seedance 降级到 Kling-Omni 不能做简单字段迁移

Seedance 一次 API 调用生成整个 scene（智能切镜），降级到 Kling-Omni 后需要逐 shot 调用，必须重新走完整流程：为每个 shot 设计 image_prompt → 生成分镜图 → 逐 shot 调用 API。不能简单替换 backend 字段。

✅ 解决方案：保留创意设计，按 Omni 标准重新规划每个 shot 的 image_prompt、frame_path，重新走 Omni 流程。
中一致性漂移："垂杨柳" → "古树" → "老树"

LLM 生成多个 shots 时，关键场景元素的描述会发生语义漂移。比如 spatial_setting 是"垂杨柳树下"，到后面的 shots 就变成"古树下""老树旁"。这不是关键词匹配能抓到的问题，需要语义理解。

✅ 解决方案：Phase 3 Step 4 的自动一致性 Review 会检测并修复这类漂移。
中参考图尺寸不合规导致 API 报错

各后端对参考图尺寸有要求。太小（<720px）导致生成质量差，太大（>2048px）直接被 API 拒绝。

✅ 解决方案：Phase 4 执行前自动检查并 resize（最小边 → 1280px，最大边 → 2048px），添加 _resized 后缀。
中音乐生成不传 --creative 导致用默认风格

video_gen_tools.py music 如果不传 --creative 参数，不会读取 creative.json 里的 music.prompt 和 music.style，生成的音乐和视频风格完全不搭。

✅ 解决方案：SKILL.md 已明确要求必须传 --creative creative/creative.json。
中 concat 不传 --storyboard 导致宽高比错误

video_gen_editor.py concat 需要从 storyboard.json 读取 aspect_ratio 来确定输出尺寸。不传会用默认值，最终视频可能被拉伸。

✅ 解决方案：SKILL.md 已明确要求 concat 必须传 --storyboard。
中 Veo3 时长只支持 4/6/8s 枚举，不能传其他值

Veo3 不像 Seedance（4-15s 任意整数），只接受 4、6、8 三个固定值。传 5s 或 10s 会报错。

✅ 解决方案：validate 命令会检查 Veo3 的时长是否为枚举值。两个版本均已将 Veo3 标记为 Deprecated。
中 Seedance 时长必须在 4-15s 范围，超出会静默失败

如果 scene 总时长超过 15s 或低于 4s，Seedance API 不会明确报错，而是返回异常结果或超长等待后超时。

✅ 解决方案：validate 命令专门检查 Seedance 的 scene 总时长范围。
低 Gemini 生成参考图时，重要人物应放在 --reference 列表的最后

多参考图调用 Gemini 生成分镜图时，--reference 列表中靠后的图片权重更高。主角参考图放前面可能导致配角面部特征抢占主角。

✅ 解决方案：SKILL.md 的 Path B 章节已明确"参考图顺序很重要，重要人物放后面"。
低视频片段拼接时音轨丢失

部分 AI 生成的视频片段带同期声/音效，如果拼接时不保护原始音轨，这些音频会丢失。无声片段和有声片段混合时可能导致音画不同步。

✅ 解决方案：editor 的 concat 已实现音频保护，无声片段自动补静音轨。
低 fal vs piapi 引用格式不同

Seedance 的两个 provider 引用图片的格式不同：fal 用 @Image1（大写 I），piapi 用 @image1（小写 i）。写错大小写会导致图片引用失效。

✅ 解决方案：工具层已做自动转换，Agent 统一用 @Image1 即可。
中 API 文件上传复杂 — 图片走 base64，视频必须先传 URL

所有视频生成 API 的文件上传机制都比较复杂。图片可以 base64 编码后本地直接上传（工具层已封装）；但视频文件只能以公开可读的 URL 形式传入，不支持本地路径或 base64。因此需要一个文件托管服务，先将视频上传拿到 URL，再传给 API。

✅ 解决方案：video-understanding 仓库中有完整的文件上传代码示例（FileService 上传 → 获取 URL → 传给 Gemini 分析），可直接参考。

08 · 潜在风险与待解决项

风险项	严重度	现状	建议
Seedance 审核策略变更	高	当前采用保守策略统一禁用。如果 Seedance 未来改善审核，可能白白损失智能切镜优势	定期用测试 Case 验证 Seedance 对 realistic 参考图的审核表现，确认稳定后可放宽策略
Kling 官方 API 429 频率	中	高并发时容易触发。fal 代理可绕过但有额外成本	监控 429 频率，考虑预购高并发配额或优先走 fal
~~ElevenLabs TTS 仅中文版有~~	已解决	英文版 SKILL.md 已补齐完整 ElevenLabs 链路（4/16 对齐）	—
~~smart-narration 仅中文版有~~	已解决	英文版 SKILL.md 已更新为 smart-narration（4/16 对齐）	—
~~Veo3 已废弃但文档未统一~~	已解决	两个版本 backend-guide.md 均已标记 Veo3 Deprecated（4/16 对齐）	后续可考虑彻底移除 Veo3 后端代码
自动化测试只到 Phase 3	低	video-gen-test 只测到分镜设计，不涵盖实际视频生成和剪辑	扩展测试框架覆盖 Phase 4-5（需要 API 费用预算）

09 · 周边工具链

video-gen-test — 自动化测试框架

用途：批量测试分镜设计能力，验证后端选择策略
执行方式：/video-gen-test 或 /video-gen-test --cases 1,3,5
测试范围：Phase 0-3（到分镜设计为止，不执行实际生成）
并发：最多同时 3 个 Agent，每个 Case 10 分钟超时
自动回答：所有交互问题预设答案（电影感/30s/9:16/AI生成BGM/不要旁白/AI生成参考图）
输出：~/vico-test-results/{timestamp}/report.html
测试用例文件：/Users/taylor.zhoush/Documents/Obsidian Vault/自动测试case.md
素材基础路径：/Users/taylor.zhoush/Downloads/00-素材库/测试集/

video-agent-monitor — 多媒体 Skill 监控

用途：定期检索 GitHub / Skillhub / Clawhub 上的新项目/Skill
覆盖领域：视频生成、图像生成、TTS 语音、音乐生成
输出：reports/ 目录下的 today.md / all-projects-list.md / index.html
触发：/AI媒体监控 或 /check media agents，也可定时执行

video-understanding — AI 视频拉片工具

用途：用 Gemini 深度分析视频内容，提取镜头语言，产出专业剧本
触发方式：/video-understanding <视频URL或本地路径>，或说"拉片""分析视频""解析这个视频"
支持模型：gemini-3.1-pro-preview（最强）/ gemini-2.5-pro（默认）/ gemini-2.5-flash（快速）
核心流程：配置检查 → 视频上传（本地文件时）→ Gemini 分析 → 剧本输出
产出：分幕剧本（人物表 + 拉片要点 + 对白/OS + 动作描述 + 镜头语言总结）
与 video-gen 联动：/video-gen ~/video-understanding-projects/{project}/output/script.md
API 配置：MIGOO_API_KEY + MIGOO_BASE_URL（必需），FILE_SERVICE_URL（可选，本地视频上传）

video-gen-veo3 — Veo3 独立版（已归档）

早期独立开发的纯 Veo 3.1 Fast 版本
Veo3 在主仓库中已标记 Deprecated，不再作为可用后端
曾有独有特性：Veo3 原生音频生成、4k 分辨率支持
不再维护，仅作为历史参考

10 · API Keys 与环境变量

环境变量	用途	何时需要	优先级
`FAL_API_KEY`	fal.ai 代理（Seedance / Kling-Omni / Gemini 图片）	使用 fal 相关服务时	Seedance 第一优先
`KLING_ACCESS_KEY` `KLING_SECRET_KEY`	Kling 官方 API	使用 Kling / Kling-Omni 官方时	官方第一优先
`SEEDANCE_API_KEY`	Seedance piapi 代理	fal 不可用时的兜底	piapi 第二优先
`COMPASS_API_KEY`	Gemini 图片 + TTS	图片生成、Gemini TTS（ElevenLabs 兜底）	图片生成第一优先
`SUNO_API_KEY`	Suno 音乐生成	生成 BGM 时	—
`YUNWU_API_KEY`	Gemini 图片生成（yunwu 代理）	图片生成最低优先级兜底	最低
`VISION_API_KEY` `VISION_BASE_URL` `VISION_MODEL`	内置视觉分析 fallback	非多模态模型时的图片分析	—

Provider 优先级

图片生成：compass → fal → yunwu
视频生成：official → fal
Seedance：fal → piapi
TTS：ElevenLabs → Gemini（两个版本已统一）

所有 key 既可以通过环境变量设置，也可以通过 config.json 持久化（setup --set-key 命令）。config.json 不应提交到 Git。

11 · 项目文件结构

Skill 仓库结构

video-gen/ (or video-gen-en/)
├── SKILL.md                    # Skill 定义（Phase 0-5 全流程）
├── video_gen_tools.py          # API 调用 CLI 工具
├── video_gen_editor.py         # FFmpeg 剪辑 CLI 工具
├── config.json                 # API Key 持久化（不进 Git）
└── reference/
    ├── storyboard-spec.md      # 分镜规范、JSON 格式
    ├── prompt-guide.md         # Prompt 编写规范
    ├── backend-guide.md        # 后端选择决策树
    ├── consistency-guide.md    # 一致性审查规范
    └── api-reference.md        # CLI 参数速查

运行时项目目录

~/video-gen-projects/{project_name}_{timestamp}/
├── state.json                  # 项目状态（Phase 进度）
├── personas.json               # 角色注册表
├── materials/
│   └── personas/               # 角色参考图
├── analysis/
│   └── analysis.json           # 素材分析结果
├── creative/
│   ├── creative.json           # 创意方案（含 backend_selection）
│   └── decision_log.json       # 决策记录
├── storyboard/
│   └── storyboard.json         # 分镜脚本
├── generated/
│   ├── frames/                 # 生成的分镜图
│   ├── videos/                 # 生成的视频片段
│   ├── music/                  # 生成的音乐
│   └── narration/              # 生成的旁白
└── output/
    └── final.mp4               # 最终视频

12 · 常见问题 FAQ

Q: 接手后应该先看哪些文件？

SKILL.md — 理解完整工作流
reference/backend-guide.md — 理解后端选择逻辑
reference/storyboard-spec.md — 理解分镜 JSON 结构
video_gen_tools.py 的 --help — 了解所有子命令

Q: 如何快速验证环境是否正常？

python video_gen_tools.py check    # 检查依赖和 API key
python video_gen_tools.py setup    # 查看所有 provider 状态

Q: 用户报告"视频没有声音"怎么排查？

检查 storyboard.json 中 audio 字段是否为 true
检查是否使用了 --audio 参数
检查 concat 时是否保护了原始音轨
检查 mix_audio 是否用了 normalize=0

Q: Seedance 生成超时怎么办？

Seedance 通过 fal 通常 ~60s 完成，通过 piapi ~120s。如果超过 10 分钟：

重试一次
仍然失败 → 询问用户是否降级到 Kling-Omni
降级需要重新按 shot-level 规划分镜（见第 5 节降级流程）

Q: 如何跑自动化测试？

# 跑所有 Case
/video-gen-test

# 只跑指定 Case
/video-gen-test --cases 1,3,5

测试只执行到 Phase 3（分镜设计），不会真正生成视频，不消耗视频 API 费用。

测试用例在 /Users/taylor.zhoush/Documents/Obsidian Vault/自动测试case.md

Q: 如何添加新的视频生成后端？

在 video_gen_tools.py 中添加新的 backend handler
在 reference/backend-guide.md 中添加能力对比和决策逻辑
在 reference/api-reference.md 中添加 CLI 参数说明
在 SKILL.md 的后端选择决策表中增加对应行
在 validate 命令中添加校验规则
跑一遍自动化测试验证不会破坏现有流程

Q: creative.json 的 backend_selection 字段是干嘛的？

Phase 2 末尾的真人素材检测结果。Phase 3 读取此字段来决定用哪个后端：

{
  "seedance_disabled": true,         // 是否禁用 Seedance
  "preferred_backend": "kling-omni", // 推荐后端
  "reason": "真人参考图会触发 Seedance content_policy_violation"
}

如果 seedance_disabled = true，Phase 3 会自动按 Kling-Omni 的 shot-level 标准设计分镜。

Q: 2026-04-16 的 CN/EN 对齐改了哪些文件？

video-gen（中文版）：3 个文件

SKILL.md — 补充 Veo3 deprecated 标注（Provider 表、Phase 0、Phase 4 链路表、工具速查）；移除重复的"关键规则"块；旁白字段名 overall_time_range → time_range
reference/backend-guide.md — Veo3 标记 Deprecated，移除作为 Vlog 兜底
reference/prompt-guide.md — TTS 音色表从火山引擎更新为 ElevenLabs + Gemini

video-gen-en（英文版）：7 个文件

SKILL.md — TTS 链路补齐、smart-narration、Vlog 兜底修正、一致性审查完整 prompt 模板、Phase 2 Q7 Python 检查逻辑、首帧 "Kling or Vidu" → "only Kling"、text2video 条款对齐、旁白字段名统一
reference/api-reference.md — 24 处工具路径 video-gen/ → video-gen-en/
reference/backend-guide.md — Veo3 Deprecated
reference/prompt-guide.md — TTS 音色表更新、章节顺序对齐（三视图→附录）、修复多余反引号、"Chinese description" → "display name"
reference/storyboard-spec.md — 场景精确化规范 + 人物妆造锁定字段 + "Chinese display name" → "display name"
reference/consistency-guide.md — 无变更（已一致）

代码层（.py）无变更，全部为文档对齐。

Q: 为什么 Seedance 用 "scene-level" 而 Kling-Omni 用 "shot-level"？

这是两个后端的核心架构差异：

Seedance 有"智能切镜"能力 — 给它一个时间分段 prompt（0-3s 做什么，3-6s 做什么...），它自动在一次调用中生成包含多个镜头的视频。所以只需要一张 scene-level 分镜图作为视觉参考。
Kling-Omni 没有这个能力 — 每个镜头需要单独调用 API，每个 shot 需要自己的分镜图和 prompt。

这个差异直接影响了 storyboard.json 的结构设计和降级策略的复杂度。