Scalable Diffusion Models with Transformers

  1. 问题引入
  • transformer架构的latent diffusion model,有较好的延展性并是sota;
  1. methods
    在这里插入图片描述
  • patchify:原图片 I ∈ R H × W × 3 I\in\mathbb{R}^{H\times W\times 3} IRH×W×3经过autoencoder之后得到 z ∈ R H 8 × W 8 × 4 z\in\mathbb{R}^{\frac{H}{8}\times \frac{W}{8}\times 4} zR8H×8W×4,之后经过patchify,得到 T × d T\times d T×d的sequence,其中 d d d是每一个patch的embedding的维度, T T T由patch的大小 p p p来决定,之后会有position encoding(frequency-based positional embeddings (the sine-cosine version)),之后就是一系列transformer sequence;
  • 除noisy latents以外额外的输入:timesteps t, class labels c, natural language, etc,分别尝试了四种变种:
  • In-context conditioning:对t和c进行embedding之后将其作为输入额外的token,和image token同等看待,类似与vit的cls tokens;
  • Cross-attention block:将t和c的embedding进行concat,之后再transformer block中的self attention之后添加cross attention,在这部分参与计算;
  • Adaptive layer norm (adaLN) block:用adaLN替换transfromer block中的layernorm layer,不是直接学习dimensionwise scale and shift parameters γ , β \gamma,\beta γ,β,而是将t和c的embedding进行相加之后经过mlp回归得到;
  • adaLN-Zero block:除了回归 γ , β \gamma,\beta γ,β,还回归dimensionwise scaling parameters α \alpha α,在residual connection之前使用,初始化mlp使得初始输入 α \alpha α为0vector,该操作相当于将dit block初始化为identity矩阵;
  • 最后dit block的输出为noise和diagonal covariance prediction;
  1. 实验
  • 数据:imagenet
  • B, S, L and XL + patch size p = 2, 4, 8

相关推荐

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-06-06 17:20:05       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-06-06 17:20:05       100 阅读
  3. 在Django里面运行非项目文件

    2024-06-06 17:20:05       82 阅读
  4. Python语言-面向对象

    2024-06-06 17:20:05       91 阅读

热门阅读

  1. 调用大模型API 给产业分类

    2024-06-06 17:20:05       34 阅读
  2. 什么情况下AI可以不用预先设定算法和规则?

    2024-06-06 17:20:05       30 阅读
  3. matlab误差估计扩展卡尔

    2024-06-06 17:20:05       28 阅读
  4. 优化耗时业务:异步线程在微服务中的应用

    2024-06-06 17:20:05       32 阅读
  5. Pytorch 叶子节点和非叶子节点的理解

    2024-06-06 17:20:05       27 阅读
  6. 开源VS闭源

    2024-06-06 17:20:05       33 阅读
  7. K8S为什么弃用Docker:容器生态的演进与未来

    2024-06-06 17:20:05       24 阅读
  8. [国家集训队] 聪聪可可 解题记录

    2024-06-06 17:20:05       26 阅读