Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models

  1. 问题引入
  • 在SD模型的基础之上,去掉text prompt,使用reference image作为生成图片语义的指导,optional structure image作为生成图片structure的指导来进行生成;
  • 使用SeeCoder来提取参考图片的embedding作为生成条件,且SeeCoder是可以重复使用的,可以直接集成到另外的T2I模型中;
  1. methods
    在这里插入图片描述
  • 使用SeeCoder代替CLIP text embedding;
  • SeeCoder包含三个部分,Backbone Encoder, Decoder, and Query Transformer,其中Backbone Encoder使用SWIN-L提取多尺度特征,该部分参数是冻结的;之后decoder使用卷积来使得多尺度特征通道数相同,然后进行flatten+concat,得到的结果通过self attn + ffn;之后Query Transformer输出视觉embedding;

相关推荐

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-10 14:16:05       99 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-10 14:16:05       107 阅读
  3. 在Django里面运行非项目文件

    2024-07-10 14:16:05       90 阅读
  4. Python语言-面向对象

    2024-07-10 14:16:05       98 阅读

热门阅读

  1. Prompt Engineering 探险

    2024-07-10 14:16:05       26 阅读
  2. 机器学习之神经网络

    2024-07-10 14:16:05       33 阅读
  3. Lianwei 安全周报|2024.07.09

    2024-07-10 14:16:05       22 阅读
  4. 每天一个数据分析题(四百一十八)- 相关分析

    2024-07-10 14:16:05       24 阅读
  5. 计算机网络面试常见题目(一)

    2024-07-10 14:16:05       28 阅读
  6. vue配置sql规则

    2024-07-10 14:16:05       21 阅读
  7. ios 企业签名证书购买_iOS苹果企业签名须知

    2024-07-10 14:16:05       27 阅读
  8. android 使用系统工具bootchart统计开机时长

    2024-07-10 14:16:05       29 阅读
  9. 【工具分享】FOFA——网络空间测绘搜索引擎

    2024-07-10 14:16:05       26 阅读
  10. 物联网应用,了解一点 WWAN全球网络标准

    2024-07-10 14:16:05       27 阅读
  11. Jupyter Notebook详尽安装教程

    2024-07-10 14:16:05       23 阅读