stable diffusion的额外信息融入方式

 conditioning怎么往sd中添加,一般有三种,一种是直接和latent拼一下,另外很多是在unet结构Spatialtransformers上加,和文本特征一样,通过cross-attention往unet上加,这里还需要注意一点,在文本嵌入时,q是可学习的,k和v都是文本embedding。第三种就是类似controlnet这种,adapter设计。

1.sd img2img

sd的img2img的图像输入是通过VAE将图像转成image latent和latent一起拼的,将512x512的图转成64x64.

init_latent = sd_model.get_first_stage_encoding(sd_model.encode_first_stage(image))
image_conditioning = img2img_image_conditioning(image, init_latent, image_mask)

1.ip-adapter 

通过解耦cross-attention的方式,clip提取图像特征,文本输入一个crossattention,图像输入一个cross-attention。

3.controlnet

stable diffusion使用和vq-gan相似的预处理方法,将512x512图像转成64x64的潜在图像,controlnet将image-based condition(就是从图像中获取线框图)转成64x64,我们使用4个4x4核和2x2strides的卷积层(后接relu,通常数分别是16,32,64,128,Guassian weights)将image-space condition转成特征图。

4.powerpaint

输入由latent+masked_image+mask concat组合,text侧还是clip编码之后送入unet进行cross-attention。

5.VideoComposer

相关推荐

  1. 如何在Go中向错误中添加额外信息

    2024-03-10 20:20:03       43 阅读
  2. 非插件方式为wordpress添加一个额外编辑器

    2024-03-10 20:20:03       17 阅读
  3. 非插件方式为wordpress添加一个额外编辑器

    2024-03-10 20:20:03       21 阅读
  4. 额外加餐-关于使用bitmap来解决缓存穿透方案

    2024-03-10 20:20:03       17 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-03-10 20:20:03       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-03-10 20:20:03       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-03-10 20:20:03       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-03-10 20:20:03       20 阅读

热门阅读

  1. 使用Rust开发小型搜索引擎

    2024-03-10 20:20:03       21 阅读
  2. 【深度学习】COCO API源码解读

    2024-03-10 20:20:03       20 阅读
  3. SpringSecurity与Shiro的区别

    2024-03-10 20:20:03       19 阅读
  4. 决策树基本原理&sklearn实现

    2024-03-10 20:20:03       25 阅读
  5. 什么是脏读、幻读、不可重复读?

    2024-03-10 20:20:03       24 阅读
  6. python读写excel时遇到的问题合集

    2024-03-10 20:20:03       21 阅读
  7. P8651 [蓝桥杯 2017 省 B] 日期问题---洛谷(题解)

    2024-03-10 20:20:03       23 阅读
  8. 蓝桥杯---列名

    2024-03-10 20:20:03       20 阅读
  9. 【数据结构】栈和队列

    2024-03-10 20:20:03       23 阅读
  10. Ubuntu 20.04 ROS1 与 ROS2 通讯

    2024-03-10 20:20:03       19 阅读
  11. 理工笔记本配置之ubuntu 锐捷认证

    2024-03-10 20:20:03       19 阅读
  12. redis20240306

    2024-03-10 20:20:03       16 阅读
  13. Vue.js 绑定容器

    2024-03-10 20:20:03       20 阅读
  14. 7、Copmose自定义颜色和主题切换

    2024-03-10 20:20:03       20 阅读