分镜制作的AI工具、工作流推荐和开源资源

线上非开源的:

https://onestory.art/
开源的:

https://www.ttslist.com/ TTSlist.com
chatTTS 音色库 /AI声音编号库/音色抽卡不烦恼

ComfyUI是一款基于节点工作流的Stable Diffusion图形界面工具 ,在进行视频分镜创作时,可借助相关插件和特定流程来实现。

分镜创作流程:先使用如DeepSeek等AI创作工具,通过输入详细的视频创意需求,获取包含场景描述的智能分镜设计。接着,依据分镜内容书写生图咒语,将其放入ComfyUI中,结合已训练好的Lora模型生成定帧画面。

在这个过程中,要注意生图咒语的优化,可采用关键词分层的方式,从主体、场景、风格、细节四个层次细化描述,通过多轮迭代、分段生成等手段逐步提升画面质量 。

Storyboard 专用插件
推荐搜索 GitHub 上的以下关键词:

  • ComfyUI-Storyboard(有开发者尝试制作分镜生成节点)
  • ComfyUI-ControlNet-Story(结合ControlNet的分镜控制流程)
bash
复制
"ComfyUI" + [插件名称]  # 例如 "ComfyUI Storyboard""ComfyUI ControlNet"

推荐工作流配置

多镜头生成:使用 Batch Processing 节点配合动态提示词

角色一致性:结合 IPAdapter+角色 LoRA

分镜布局:使用 Layout-Parser 节点控制画面构图

时间轴管理:Timeline 节点(社区插件)

二、开源分镜专用模型

  1. Storyboard-Diffusion(专门训练的分镜风格模型)
  2. AnimeStoryboard-v3(二次元分镜专用)
  3. Cinematic-LoRA(电影分镜风格适配器)

辅助工具模型

  • ShotComposer(镜头语言解析模型)
  • SceneParser(场景元素分割模型)
  • Dialogue2Story(台词转分镜的文本模型)

三、推荐工作流架构(可自行搭建)

graph TD
    A[剧本输入] --> B(脚本解析器)
    B --> C{镜头类型判断}
    C -->|全景| D[广角构图+环境控制]
    C -->|特写| E[面部增强+浅景深]
    C -->|动作| F[动态模糊控制]
    D/E/F --> G[ControlNet构图锁定]
    G --> H[角色一致性引擎]
    H --> I[批量生成节点]
    I --> J[自动排版输出]

四、替代方案推荐

  1. 专业工具
  • Storyboarder(开源分镜软件+AI插件)
  • Boords(在线协作平台)
  • Shotgrid(影视级流程管理)
    工具名称 下载地址 备注
    Storyboarder 官网 开源免费,支持PSD导出
    Boords 官网 在线工具,免费版有导出限制
    Shotgrid 官网 企业级工具,需申请试用
    D-ID 官网 需API密钥,有免费额度
  1. AI视频生成工具
    • D-ID(动态分镜生成)
  2. RunwayML(场景连续性控制)
  3. Kaiber(音乐节奏适配分镜)

五、学习资源

  1. GitHub 项目:
    Awesome-AI-Storyboarding(分镜AI资源汇总)
  • ComfyUI-Workflow-Examples中的Film分类
  1. 案例参考:
    • 《火影忍者》AI分镜开源项目( GitHub 搜索Naruto-Storyboard-AI)
  • 新海诚风格分镜LoRA(CivitAI平台)

建议关注HuggingFace和CivitAI平台每周更新的storyboard相关tag,该领域目前处于高速发展阶段,每个月都有新工具出现。对于需要精准控制的分镜制作,推荐结合使用ControlNet+IPAdapter+Segment Anything的"三位一体"控制方案。

AI做分镜和动画的可行性,老白连线Onestory技术总监_哔哩哔哩_bilibili


关键注意事项

  1. 依赖项安装:

    • 部分插件需要 Python 库支持(如OpenCV、PyTorch),可通过pip install -r requirements.txt安装

    • 缺失节点报错时,检查控制台提示的缺少的模块名称
  2. 版本兼容性:

    • ComfyUI 版本需≥1.7(2024年后插件普遍要求此版本)

    • 模型与 SD 版本匹配(SD1.5/SDXL)
  3. 版权声明:

    • CivitAI模型注意查看License(部分禁止商用)

    • 使用LoRA时需遵守训练数据来源协议

配音文本批量

目前测下来最好的是 Index-TTS 1.5 ,可以从刘悦大佬的技术博客里学习下载一键包,
教程优先看这个UP主:AI王知风,目前看下来讲的最适合小白的教程

Index-TTS 最新版本实测|语音克隆能笑了?钩子+参数+整合包全公开(小白看了就能配)_哔哩哔哩_bilibili
本期带来Index-TTS最新版完整部署教程,支持50系显卡,附送一键启动脚本与整合包。上半部分手把手教学安装流程与命令原理,下半部分实测“文本钩子”诱发AI笑声,讲解高级参数调节技巧。无需基础,小白也能独立完成部署与语音克隆生成。最强的语音克隆Index-TTS+模型链接: https://pan.quark.cn/s/0323546801a5 提取码:LCQT官方仓库:https://gith, 视频播放量 31215、弹幕量 33、点赞数 983、投硬币枚数 807、收藏人数 2057、转发人数 139, 视频作者 AI王知风, 作者简介 游离于北美——北京的AI技术咨询师!AI开源项目部署与整合包制作!一个以哲学为指引的科学原教旨主义者:在下王知风,相关视频:【真分享】把声音克隆难度打下来!手机直接用!直接真分享~兄弟们不要冲爆了。,FaceFusion 3.8.2全功能换脸教程整合版|超详细操作+核心设置+新增功能全讲清|新手入门必看,LatentSync 1.5 对口型实战|ComfyUI插件加载+本地部署+整合包全流程教学,【超强盘点】最热的14款TTS语音合成/克隆开源项目合集专题!,VisoMaster 2025 最新版 1.6:超简单换脸教程,一学就会!,AI翻唱保姆级教程,【小in分享】你的声音,我的了!最强AI声音克隆GPT-SoVITS保姆级教学,1分钟拥有任何人的声音|本地部署|离线运行|免费开源,AI语音克隆哪家强?教你快速上手FireRedTTS和CosyVoice,index-tts1.5-v5整合包,支持批量txt生成,支持多角色对话,支持同步生成字幕,2天学会AI变现【置顶评论领30份AI内部资料】
Favicon of the bookmark site
https://www.bilibili.com
Site image of the bookmark
  1. 批量Excel表字段设计:
  2. 高级参数:
  3. 翻唱用 RVC 数据集训练标准,格式尽量用wav,采样率48k好于40k,CPU 线程根据自己电脑情况(任务管理器—>性能—>逻辑处理器的数值)设置,越大越好,说话人id单人默认为0
    教程参考:
    零基础玩转AI短剧|RVC翻唱工具+对口型完整流程,轻松突破10秒限制!_哔哩哔哩_bilibili
    本期视频详细教学如何使用 RVC翻唱工具,制作高质量的 AI短剧。从零基础开始,手把手教你声音克隆、对口型生成、长视频制作,突破10秒限制。适合想学习AI翻唱、短剧制作的新手和进阶用户。AI翻唱链接:https://pan.quark.cn/s/5e3527b5acad 提取码:XNsA, 视频播放量 5315、弹幕量 2、点赞数 119、投硬币枚数 66、收藏人数 232、转发人数 22, 视频作者 AI王知风, 作者简介 游离于北美——北京的AI技术咨询师!AI开源项目部署与整合包制作!一个以哲学为指引的科学原教旨主义者:在下王知风,相关视频:豆包+AI对口型说话,AI完美对口型!生动自然的AI唱歌AI说词!落野天言|即梦AI|omnihuman,AI视频翻译+对口型(免费版教程),【RVC教程】最强ai翻唱震撼登场,小白秒变ai唱歌达人!ai配音也能轻松搞定,多种音色任你选,免费软件等你来,小说推文新体验 | 免费ai教程 | 声音克隆,AI翻唱/RVC模型全流程推理训练/填词二创/UVR5声音处理/模型分享/一个视频解决你AI翻唱所有问题!,如何制作这种炸裂电影人物唱歌视频?,最强中文声音克隆!B站出品,Index-TTS 1.5 实测,支持长文本音色克隆!可做口播、配音、有声小说等!,【ComfyUI教程】最强comfyui插件让AI视频说话唱歌,轻松搞定AI视频口型动画!零基础小白必看教程(附comfyui工作流),实测4060Ti运行B站开源的Index-TTS文字转语音效果,最强开源AI翻唱、AI唱歌,完全免费,手把手零基础教程。
    Favicon of the bookmark site
    https://www.bilibili.com
    Site image of the bookmark
    分类 内容
    时长 最好控制在 40 分钟到一小时之间时间太短,容易出现咬字不清、音色漂浮的问题时间太长,训练时间增加,收益递减
    音质 不要噪音 不要混响去掉一切环境声清除一切白噪声
    音域 低音 中音 高音把你能发的音域全部唱出来 破音要避开 走音无所谓音域是底层逻辑 越宽 越稳 模型的泛化能力越强
    描述 推荐选项
    是否仅保存最新的 ckpt 文件以节省硬盘空间
    是否缓存所有训练集至显存,10min 以下小数据可缓存以加速训练,大数据缓存会炸显存也加不了多少速
    是否在每次保存时间点将最终小模型保存至 weights 文件夹
    显卡 推荐 batch_size
    3060 12G 6~8
    4060 8G 4~6
    4060 Ti 16G 8~10
    4070 12G 10~12
    4070 Super 16G 12~14
    4080 16G 16~20
    4090 24G 24~32
    A100 40G 64~96

    伴奏人声分离中针对人声模型选择,结合英文理解:dereverb(去混响 )DeEcho(去回声 )、DeReverb(去混响 )

    模型名称 训练数据特点 核心功能侧重 适用场景建议 效果差异(对比常规模型)
    HP2_all_vocalsHP3_all_vocals 包含多声部、多歌手人声数据 兼顾多声部层次,通用音色转换 多歌手合唱、复杂编曲素材 多声部融合好,但单人主唱音色精准度稍弱
    ✅ HP5_only_main_vocal 专注单一主唱人声纯净数据 聚焦主音色高精度还原 单人主唱歌曲、突出 solo 场景 主音色细腻,但多声部适配性差
    onnx_dereverb_By_FoxJoy 经 “去混响” 预处理的人声数据 先净化(去混响)再做音色转换 带混响干扰的素材(如现场翻唱) 有效削弱混响,但过度处理可能让声音干涩
    VR-DeEchoDeReverb 侧重 “去回声 + 去混响” 优化数据 声学修复(去回声 / 混响)+ 音色转换 有环境音(回声、混响)的素材 环境音净化强,声音更 “贴耳”,细节可能损失
    VR-DeEchoNormal 侧重 “去回声” 优化数据 去回声处理 + 基础音色转换 带回声干扰的普通素材 回声削弱明显,保留一定自然度
💡
欢迎分享文章,或是 来信 与我交流