在 Wan2.2 的图生视频中,高噪 LoRA和低噪 LoRA是控制视频生成不同阶段风格与稳定性的核心参数,作用分工明确:
- 高噪 LoRA:控制视频生成的创意性与多样性对应扩散模型的 “高噪声阶段”(视频结构未定型时),主要负责视频的整体布局、动作框架、场景轮廓。调高其权重会让视频更有创意(比如动作更丰富、场景变化更多),但可能偏离原始图片的细节。
- 低噪 LoRA:控制视频的稳定性与还原度对应扩散模型的 “低噪声阶段”(视频结构已稳定时),主要负责细节优化、动作衔接、画面清晰度。调高其权重会让视频更贴近原始图片(比如人物 / 物体特征更一致),但创意性会相对降低。
简单说:高噪管 “创意发散”,低噪管 “还原稳定”,两者配合可以平衡 “自由创作” 和 “贴合原图” 的需求。
模型将去噪过程划分为高噪声与低噪声两个阶段:高噪声专注视频整体时空布局的构建,低噪声负责细节纹理的优化,每个阶段配备专用专家网络。使高噪聚焦轮廓生成,低噪专攻细节优化。
这种架构使总参数量翻倍至280亿的同时,保持140亿激活参数规模,实现计算资源的最优配置。
可实现720视频在消费级显卡上的生成。
踩坑的点
我发现wan视频很依赖提示词,即使上传了图片,但提示词里只要写了图片中没有的东西,它都要尝试给你生成出来甚至没写的也生成,很有自己的想法和个性,当然,也可以通过高低躁来还原;comfyUI真的对美术出生的童鞋很不友好,写了很多程序词,但还需要脑子转换成日常可理解的才方便生产力使用
- 2分钟可以生成5s视频,16g显存
- 生成步数推荐30
- FPS 16对应下方2x fps 相当于32,会不那么晃,过渡较平滑 81帧=5秒
- teacache用于加速
- 360的lora最多可以加4个lora,用于旋转
- 将promopt保存到文件,会在生成的视频旁边存一个txt,记录生成信息
Available LoRA Models
| Task Type | Noise Level | Model File | Rank | Purpose |
|---|---|---|---|---|
| I2V | High Noise | wan2.2_i2v_A14b_high_noise_lora_rank64_lightx2v_4step_xxx.safetensors | 64 | More creative image-to-video |
| I2V | Low Noise | wan2.2_i2v_A14b_low_noise_lora_rank64_lightx2v_4step_xxx.safetensors | 64 | More stable image-to-video |
| 场景需求 | 高噪LoRA权重 | 低噪LoRA权重 | 效果说明 |
|---|---|---|---|
| 贴近原图+稳定流畅 | 0.2-0.4 | 0.7-0.9 | 视频细节/动作高度还原原图,画面衔接丝滑,但动作/场景变化较少 |
| 创意丰富+动作多样 | 0.7-0.9 | 0.3-0.5 | 动作更灵动、场景变化多,创意性强,但可能轻微偏离原图细节 |
| 平衡型(兼顾还原与创意) | 0.4-0.6 | 0.5-0.7 | 保留原图核心特征,同时有适度的动作/场景创意,适合大多数日常生成需求 |
| 夸张风格(戏剧化动作) | 0.8-1.0 | 0.2-0.4 | 动作幅度大、场景张力强,但原图细节可能出现较明显偏差 |
| 细腻风格(慢动作/特写) | 0.3-0.5 | 0.8-1.0 | 画面细节清晰、动作衔接自然,原图人物/物体特征几乎无偏差 |
💡
本银河星区空间站,是由 Tia(设计师+野生开发者)打造,主要分享技术日志、ai、设计、效率工具和在银河系生活的所思所想,欢迎分享文章