分镜制作的AI工具、工作流推荐和开源资源

线上非开源的:

https://onestory.art/
开源的:

https://www.ttslist.com/ TTSlist.com
chatTTS 音色库 /AI声音编号库/音色抽卡不烦恼

ComfyUI是一款基于节点工作流的Stable Diffusion图形界面工具 ,在进行视频分镜创作时,可借助相关插件和特定流程来实现。

分镜创作流程:先使用如DeepSeek等AI创作工具,通过输入详细的视频创意需求,获取包含场景描述的智能分镜设计。接着,依据分镜内容书写生图咒语,将其放入ComfyUI中,结合已训练好的Lora模型生成定帧画面。

在这个过程中,要注意生图咒语的优化,可采用关键词分层的方式,从主体、场景、风格、细节四个层次细化描述,通过多轮迭代、分段生成等手段逐步提升画面质量 。

Storyboard 专用插件
推荐搜索 GitHub 上的以下关键词:

  • ComfyUI-Storyboard(有开发者尝试制作分镜生成节点)
  • ComfyUI-ControlNet-Story(结合ControlNet的分镜控制流程)
bash
复制
"ComfyUI" + [插件名称]  # 例如 "ComfyUI Storyboard""ComfyUI ControlNet"

推荐工作流配置

多镜头生成:使用 Batch Processing 节点配合动态提示词

角色一致性:结合 IPAdapter+角色 LoRA

分镜布局:使用 Layout-Parser 节点控制画面构图

时间轴管理:Timeline 节点(社区插件)

二、开源分镜专用模型

  1. Storyboard-Diffusion(专门训练的分镜风格模型)
  2. AnimeStoryboard-v3(二次元分镜专用)
  3. Cinematic-LoRA(电影分镜风格适配器)

辅助工具模型

  • ShotComposer(镜头语言解析模型)
  • SceneParser(场景元素分割模型)
  • Dialogue2Story(台词转分镜的文本模型)

三、推荐工作流架构(可自行搭建)

graph TD
    A[剧本输入] --> B(脚本解析器)
    B --> C{镜头类型判断}
    C -->|全景| D[广角构图+环境控制]
    C -->|特写| E[面部增强+浅景深]
    C -->|动作| F[动态模糊控制]
    D/E/F --> G[ControlNet构图锁定]
    G --> H[角色一致性引擎]
    H --> I[批量生成节点]
    I --> J[自动排版输出]

四、替代方案推荐

  1. 专业工具
  • Storyboarder(开源分镜软件+AI插件)
  • Boords(在线协作平台)
  • Shotgrid(影视级流程管理)
    工具名称 下载地址 备注
    Storyboarder 官网 开源免费,支持PSD导出
    Boords 官网 在线工具,免费版有导出限制
    Shotgrid 官网 企业级工具,需申请试用
    D-ID 官网 需API密钥,有免费额度
  1. AI视频生成工具
    • D-ID(动态分镜生成)
  2. RunwayML(场景连续性控制)
  3. Kaiber(音乐节奏适配分镜)

五、学习资源

  1. GitHub 项目:
    Awesome-AI-Storyboarding(分镜AI资源汇总)
  • ComfyUI-Workflow-Examples中的Film分类
  1. 案例参考:
    • 《火影忍者》AI分镜开源项目( GitHub 搜索Naruto-Storyboard-AI)
  • 新海诚风格分镜LoRA(CivitAI平台)

建议关注HuggingFace和CivitAI平台每周更新的storyboard相关tag,该领域目前处于高速发展阶段,每个月都有新工具出现。对于需要精准控制的分镜制作,推荐结合使用ControlNet+IPAdapter+Segment Anything的"三位一体"控制方案。

AI做分镜和动画的可行性,老白连线Onestory技术总监_哔哩哔哩_bilibili


关键注意事项

  1. 依赖项安装:

    • 部分插件需要 Python 库支持(如OpenCV、PyTorch),可通过pip install -r requirements.txt安装

    • 缺失节点报错时,检查控制台提示的缺少的模块名称
  2. 版本兼容性:

    • ComfyUI 版本需≥1.7(2024年后插件普遍要求此版本)

    • 模型与 SD 版本匹配(SD1.5/SDXL)
  3. 版权声明:

    • CivitAI模型注意查看License(部分禁止商用)

    • 使用LoRA时需遵守训练数据来源协议

配音文本批量

目前测下来最好的是 Index-TTS 1.5 ,可以从刘悦大佬的技术博客里学习下载一键包,
教程优先看这个UP主:AI王知风,目前看下来讲的最适合小白的教程

Index-TTS 最新版本实测|语音克隆能笑了?钩子+参数+整合包全公开(小白看了就能配)_哔哩哔哩_bilibili
本期带来Index-TTS最新版完整部署教程,支持50系显卡,附送一键启动脚本与整合包。上半部分手把手教学安装流程与命令原理,下半部分实测“文本钩子”诱发AI笑声,讲解高级参数调节技巧。无需基础,小白也能独立完成部署与语音克隆生成。最强的语音克隆Index-TTS+模型链接: https://pan.quark.cn/s/0323546801a5 提取码:LCQT官方仓库:https://gith, 视频播放量 33370、弹幕量 34、点赞数 1012、投硬币枚数 827、收藏人数 2114、转发人数 142, 视频作者 AI王知风, 作者简介 游离于北美——北京的AI技术咨询师!AI开源项目部署与整合包制作!一个以哲学为指引的科学原教旨主义者:在下王知风,相关视频:index TTS 2彻底颠覆声音克隆:完美复刻情绪,跨语言翻译让任何人说任何话!,cosyvoice2情感测试,哭腔都出来了?!,文本转语音indextts1.5-VLLM加速版,音色克隆,本地部署!支持批量任务。一键整合包,6G显存即可使用。支持API调用。,[indexTTS]原声直接转中文测试效果,Kokoro TTS 本地部署!CPU流畅运行!文本转语音,语音合成!新手友好!含可视化页面,本地离线文本转语音0样本indextts整合包导出srt字幕文件10秒克隆你的声音,B站自研IndexTTS 2.0开源!免费“克隆”任何声音,效果炸裂!十分钟上手,人人都是配音大师,附整合包下载!,indexTTS+vLLM超快推理,数字人实时响应速度提升40%,全球最强AI语音克隆、文本转语音、AI翻唱、声音模型训练、AI配音工具----智声云配DubbingX,【AI配音超自然】!新增优化250+音色,完美还原笑声、哭泣、呼吸声,支持中文,日文,英文语等多语种
Favicon of the bookmark site
https://www.bilibili.com
Site image of the bookmark
  1. 批量Excel表字段设计:
  2. 高级参数:
  3. 翻唱用 RVC 数据集训练标准,格式尽量用wav,采样率48k好于40k,CPU 线程根据自己电脑情况(任务管理器—>性能—>逻辑处理器的数值)设置,越大越好,说话人id单人默认为0
    教程参考:
    零基础玩转AI短剧|RVC翻唱工具+对口型完整流程,轻松突破10秒限制!_哔哩哔哩_bilibili
    本期视频详细教学如何使用 RVC翻唱工具,制作高质量的 AI短剧。从零基础开始,手把手教你声音克隆、对口型生成、长视频制作,突破10秒限制。适合想学习AI翻唱、短剧制作的新手和进阶用户。AI翻唱链接:https://pan.quark.cn/s/5e3527b5acad 提取码:XNsA, 视频播放量 5594、弹幕量 2、点赞数 126、投硬币枚数 68、收藏人数 238、转发人数 23, 视频作者 AI王知风, 作者简介 游离于北美——北京的AI技术咨询师!AI开源项目部署与整合包制作!一个以哲学为指引的科学原教旨主义者:在下王知风,相关视频:【AI视频】全网最强无限制大尺度AI生成视频教程,一张美女图1分钟生成你喜欢的电影,轻松掌握自媒体流量密码!,豆包+AI对口型说话,一键搞定AI翻唱&伴奏提取!AI歌手翻唱从未如此简单!| Replay - RVC与UVR5的结合体,三国人物对口型唱歌是怎么做出来的?,AI翻唱/RVC模型全流程推理训练/填词二创/UVR5声音处理/模型分享/一个视频解决你AI翻唱所有问题!,AI视频翻译+对口型(免费版教程),Facefusion 高效的AI换脸/对口型 工具,耗时两个月自主研发的低成本AI音色克隆软件,免费送给大家!【GPT-SoVITS】,【AI配音天花板】CosyVoice2.0 AI声音克隆,一键AI翻唱,下载即用!拒绝付费!CosyVoice & DreamTalk 本地安装包!,2025版最强换脸软件FaceFusion来了(附整合包)超变态的AI换脸教程!FaceFusion插件安装使用教程!
    Favicon of the bookmark site
    https://www.bilibili.com
    Site image of the bookmark
    分类 内容
    时长 最好控制在 40 分钟到一小时之间时间太短,容易出现咬字不清、音色漂浮的问题时间太长,训练时间增加,收益递减
    音质 不要噪音 不要混响去掉一切环境声清除一切白噪声
    音域 低音 中音 高音把你能发的音域全部唱出来 破音要避开 走音无所谓音域是底层逻辑 越宽 越稳 模型的泛化能力越强
    描述 推荐选项
    是否仅保存最新的 ckpt 文件以节省硬盘空间
    是否缓存所有训练集至显存,10min 以下小数据可缓存以加速训练,大数据缓存会炸显存也加不了多少速
    是否在每次保存时间点将最终小模型保存至 weights 文件夹
    显卡 推荐 batch_size
    3060 12G 6~8
    4060 8G 4~6
    4060 Ti 16G 8~10
    4070 12G 10~12
    4070 Super 16G 12~14
    4080 16G 16~20
    4090 24G 24~32
    A100 40G 64~96

    伴奏人声分离中针对人声模型选择,结合英文理解:dereverb(去混响 )DeEcho(去回声 )、DeReverb(去混响 )

    模型名称 训练数据特点 核心功能侧重 适用场景建议 效果差异(对比常规模型)
    HP2_all_vocalsHP3_all_vocals 包含多声部、多歌手人声数据 兼顾多声部层次,通用音色转换 多歌手合唱、复杂编曲素材 多声部融合好,但单人主唱音色精准度稍弱
    ✅ HP5_only_main_vocal 专注单一主唱人声纯净数据 聚焦主音色高精度还原 单人主唱歌曲、突出 solo 场景 主音色细腻,但多声部适配性差
    onnx_dereverb_By_FoxJoy 经 “去混响” 预处理的人声数据 先净化(去混响)再做音色转换 带混响干扰的素材(如现场翻唱) 有效削弱混响,但过度处理可能让声音干涩
    VR-DeEchoDeReverb 侧重 “去回声 + 去混响” 优化数据 声学修复(去回声 / 混响)+ 音色转换 有环境音(回声、混响)的素材 环境音净化强,声音更 “贴耳”,细节可能损失
    VR-DeEchoNormal 侧重 “去回声” 优化数据 去回声处理 + 基础音色转换 带回声干扰的普通素材 回声削弱明显,保留一定自然度
💡
欢迎分享文章,或是 来信 与我交流