Scalable Diffusion Models with Transformers

2024-06-06 17:20:05
开发
31

问题引入

transformer架构的latent diffusion model，有较好的延展性并是sota；

methods

patchify：原图片 $I\in\mathbb{R}^{H\times W\times 3}$ 经过autoencoder之后得到 $z\in\mathbb{R}^{\frac{H}{8}\times \frac{W}{8}\times 4}$ ，之后经过patchify，得到 $T\times d$ 的sequence，其中 $d$ 是每一个patch的embedding的维度， $T$ 由patch的大小 $p$ 来决定，之后会有position encoding(frequency-based positional embeddings (the sine-cosine version))，之后就是一系列transformer sequence；
除noisy latents以外额外的输入：timesteps t, class labels c, natural language, etc，分别尝试了四种变种：
In-context conditioning：对t和c进行embedding之后将其作为输入额外的token，和image token同等看待，类似与vit的cls tokens；
Cross-attention block：将t和c的embedding进行concat，之后再transformer block中的self attention之后添加cross attention，在这部分参与计算；
Adaptive layer norm (adaLN) block：用adaLN替换transfromer block中的layernorm layer，不是直接学习dimensionwise scale and shift parameters $\gamma,\beta$ ，而是将t和c的embedding进行相加之后经过mlp回归得到；
adaLN-Zero block：除了回归 $\gamma,\beta$ ，还回归dimensionwise scaling parameters $\alpha$ ，在residual connection之前使用，初始化mlp使得初始输入 $\alpha$ 为0vector，该操作相当于将dit block初始化为identity矩阵；
最后dit block的输出为noise和diagonal covariance prediction；

实验

数据：imagenet
B, S, L and XL + patch size p = 2, 4, 8

原文地址:https://blog.csdn.net/weixin_44994838/article/details/139472012 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1798646026920398848.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

Scalable Diffusion Models with Transformers

相关推荐

最近更新

热门阅读