【无标题】

ControlNet: 一个基于 Stable Diffusion 1.5 的轻型预训模型,能利用输入图片 (input image)里的边缘特征、深度特征 或 人体姿势的骨架特征(posture skeleton),配合文字prompt,精确引导图像在 SD1.5 里的生成结果。

6天后,腾讯 ARC 也发布了类似解决方案 T2I-Adapter。

ControlNet 和 T2I-Adapter 的框架都具备灵活小巧的特征,训练快,成本低,参数少,很容易地被插入到现有的文本-图像扩散模型中

和img2img 区别:

img2img 的input image 提供的引导主要是噪音的分布,影响构图和颜色,但对生成对象形状(边缘) 的与输入图片的贴合度并不高(鹿角特别明显)

1、ControlNet训练

ControlNet 论文里提到,

Canny Edge detector 模型的训练用了300万张边缘-图像-标注对的语料,A100 80G600个 GPU小时

Human Pose (人体姿态骨架)模型用了8万张 姿态-图像-标注 对的语料, A100 80G的 400个 GPU 时。

2、T2I-Adapter训练

 4块Tesla 32G-V100 上只花了2天就完成,包括3种 condition,sketch(15万张图片语料),Semantic segmentation map(16万张)和 Keypose(15万张)。

3、T2I-Adapter 支持一种以上的 condition model 引导,

比如可以同时使用 sketch 和 segmentation map 作为输入条件,或 在一个蒙版区域 (也就是 inpaint ) 里使用 sketch 引导。

相关推荐

  1. 标题

    2024-07-20 10:52:01       67 阅读
  2. 标题

    2024-07-20 10:52:01       66 阅读
  3. 标题

    2024-07-20 10:52:01       62 阅读
  4. 标题

    2024-07-20 10:52:01       71 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-20 10:52:01       52 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-20 10:52:01       54 阅读
  3. 在Django里面运行非项目文件

    2024-07-20 10:52:01       45 阅读
  4. Python语言-面向对象

    2024-07-20 10:52:01       55 阅读

热门阅读

  1. MySQL分库与分表的设计思路

    2024-07-20 10:52:01       15 阅读
  2. AI、AGI、AIGC与AIGC、NLP、LLM,ChatGPT区分

    2024-07-20 10:52:01       18 阅读
  3. 高并发小结

    2024-07-20 10:52:01       17 阅读
  4. linux学习笔记整理: 关于linux:nginx服务器 2024/7/20;

    2024-07-20 10:52:01       17 阅读
  5. 初等数论精解【1】

    2024-07-20 10:52:01       17 阅读
  6. Base64编码与解码

    2024-07-20 10:52:01       23 阅读
  7. Android Studio关于Gradle及JDK问题解决

    2024-07-20 10:52:01       15 阅读
  8. Oracle(12)什么是主键(Primary Key)?

    2024-07-20 10:52:01       15 阅读