训练图片选什么?Lora大战Checkpoint cover image

训练图片选什么?Lora大战Checkpoint

针对训练图片需求,以下是结合现有技术路径、模型选择建议及新手友好工具的综合推荐:

先说观点:大模型训练需要有很强力的硬件,推荐在4090以上,Lora虽然也是微调,依旧是同类图片越多效果训练越好


一、模型选择:Lora vs Checkpoint
1. Lora模型
  • 优势
    • 轻量化:模型体积小(通常10-200MB),训练速度快,适合消费级显卡(如RTX 3060 12G)。
    • 灵活性:可叠加在多种Checkpoint模型上使用,兼容性高。例如,中国风LoRA可与chilloutmixghostmix等Checkpoint搭配,生成不同风格的融合效果。
    • 数据需求低:最少仅需15-30张高质量图片即可训练,适合特定风格(如敦煌飞天、水墨画)的快速微调。
  • 适用场景
    • 需要快速迭代风格或资源有限的新手用户。
    • 需与其他模型灵活搭配,生成多样化中国风图案(如服饰、建筑、山水画)。
2. Checkpoint模型
  • 优势
    • 效果全面:直接训练完整模型,对整体画风控制更精准(如国风写意、工笔)。
    • 独立性:无需依赖其他模型,直接生成完整画面。
  • 缺点
    • 资源消耗大:训练时间长(需数天),模型体积大(几GB),需高性能GPU。
  • 适用场景
    • 需要完全自定义中国风整体画风(如模仿特定朝代艺术风格)。
    • 有充足算力支持的进阶用户。

推荐选择

优先使用Lora模型,因其成本低、灵活性高,且现有中国风案例(如敦煌飞天、水墨风格)已通过Lora实现较好效果。


二、训练方法推荐
1. 数据准备
  • 素材要求
    • 高质量图片:分辨率建议≥512×512,主体清晰(如敦煌壁画、青花瓷纹样、水墨山水)。
    • 多样性:覆盖不同角度、构图(如局部特写与全景),背景尽量简洁以减少干扰。
    • 标注技巧
      • 使用BLIP或Deepbooru自动生成标签,再手动修正冗余词(如错误性别、无关元素)。
      • 添加触发词(如dunhuang_style, ink_painting),增强风格引导。
2. 训练工具与参数
  • 新手友好工具
    • kohya_ssGithub仓库):提供可视化界面,支持本地训练,适合Windows环境。推荐使用其“新手模式”,简化参数配置。
    • 秋叶aaaki整合包:集成SD-WebUI和SD-Trainer,中文教程详细,适合零基础用户。
  • 关键参数设置
    • Batch Size:显存≤8GB设为1-2,≥12GB可设为4-6。
    • Network Rank/Alpha:中国风推荐128-256(平衡细节与泛化能力)。
    • 学习率:默认0.0001,可配合clip_skip=1提升风格稳定性。
3. 训练后优化
  • 权重测试:通过x/y/z图表测试不同Lora权重(0.6-1.0为常用范围),筛选最佳效果。
  • ControlNet辅助:结合线稿或姿势控制模型(如CannyOpenPose),优化手部细节或构图。

三、推荐Github仓库
  1. kohya_ss
  2. Colossal-AI
  3. BooruDatasetTagManager

四、中国风训练案例参考
  • 敦煌飞天风格
    • 触发词dunhuang_cloths, feitian, gold_leaf_art
    • CheckpointdarkSushiMixMix_brighterPrunedghostmix_v20Bakedvae
  • 水墨画风格
    • 触发词shukezouma, traditional_chinese_ink_painting
    • Checkpointchilloutmix_NiPrunedFp32Fix

五、总结建议
  • 新手路径
    1. 使用秋叶整合包快速搭建环境,结合kohya_ss训练中国风LoRA。
    2. 从简单风格(如单一水墨元素)开始,逐步扩展至复杂场景(如古风人物+山水)。
    3. 参考现有中国风LoRA(如“墨心1.0”)的参数配置,减少试错成本。
  • 进阶方向
    • 尝试非对称LoRA(如MakeAnything项目),融合多领域数据生成步骤化中国风作品。
    • 结合量化优化工具(如SkyReels一键包),提升推理速度与生成稳定性。
  • 注意记录
    • 用表格形式记录每组训练参数
    • XYplot绘制训练表现效果,最终整理出适合的参数