13、Deconstructing Denoising Diffusion Models for Self-Supervised Learning

2024-03-22 15:52:05
开发
38

简介

研究了最初用于图像生成的去噪扩散模型(DDM)的表示学习能力
解构DDM，逐步将其转变为经典的去噪自动编码器(DAE)
探索现代ddm的各个组成部分如何影响自监督表征学习

结论：
只有很少的现代组件对于学习良好的表示是至关重要的，而其他许多组件则是不必要的
DDM的表示能力主要是由去噪驱动的过程获得的，而不是扩散驱动的过程
成果：一种高度简化的方法，并且在很大程度上类似于经典的DAE——l-DAE

在这里插入图片描述
通过主成分基(即V)将输入图像投影到隐空间中，在隐空间中加入噪声，并通过逆主成分基将带噪声的隐投影回图像空间

上图(中间，底部)显示了在潜在空间中添加噪声的示例图像

将这个有噪声的图像作为网络的输入，可以应用一个标准的ViT网络，它直接对图像进行操作，就好像没有tokenizer一样

背景

Denoising Diffusion Models (DDM) 实现了令人印象深刻的图像生成质量，特别是对于高分辨率、逼真的图像，对于理解视觉内容似乎具有很强的识别表征

t时间步的噪声图像为
在这里插入图片描述
$\epsilon \sim N(0,I)$ , $\gamma^2_t + \sigma^2_t=1$

网络预测噪声拟合增加的噪声
在这里插入图片描述

实验过程

noise

去掉DDM的分类条件

假设直接对模型进行类标签的调节可以减少模型对与类标签相关的信息编码的需求。移除类条件可以迫使模型学习更多的语义

采用线性衰减噪声噪声

实验结果
在这里插入图片描述

在这里插入图片描述

结论：自监督学习绩效与生成质量无关

Tokenizer

更换Tokenizer，分别为Convolutional VAE、Patch-wise VAE、Patch-wise AE和Patch-wise PCA
在这里插入图片描述

结论：标记器的潜在维数是DDM在自监督学习中发挥作用的关键

卷积VAE标记器既不是必要的，也不是有利的;相反，所有基于补丁的标记器，其中每个补丁都是独立编码的，彼此之间的表现相似，并且始终优于Conv VAE变体。此外，KL正则化项是不必要的，因为AE和PCA变体都能很好地工作

结论：高分辨率、基于像素的ddm不如自监督学习。

Autoencoders

不同与DDM预测噪声，经典DAE直接预测清晰图像
在这里插入图片描述
$\lambda_t =\gamma^2_t / \sigma^2_t$ ，实验设置 $\lambda_t=\gamma^2_t$ 效果更好

去掉输入缩放
设置 $\gamma_t=1$ , $\sigma_t$ 是0到 $\sqrt{2}$ 的线性变化， $\lambda_t=1/(1+\sigma^2_t)$
在这里插入图片描述
结论：不需要按 $\gamma_t$ 缩放数据3

用逆PCA对图像空间进行操作

通过主成分基(即V)将输入图像投影到隐空间中，在隐空间中加入噪声，并通过逆主成分基将带噪声的隐投影回图像空间，将这个有噪声的图像作为网络的输入，可以应用一个标准的ViT网络，它直接对图像进行操作，就好像没有tokenizer一样
在这里插入图片描述

结论：用逆主成分分析对图像空间进行处理可以获得与对潜在空间进行处理相似的结果

预测原始图像（l-DAE）

PCA对于任何降维d都是有损编码器

当让网络预测原始图像时，引入的“噪声”包括两部分:(i)加性高斯噪声，其固有维数为d; (ii) PCA重构误差，其固有维数为D - d (d为768)

使用干净的原始图像 $x_0$ 和网络预测网( $x_t$ )，可以计算投影到完整PCA空间上的残差 $\triangleq V(x_0-net(x_t))$ ，V是表示完整PCA基的D乘D矩阵

损失函数为：
在这里插入图片描述
i 表示向量 r 的第 i 维，当 i≤d 时，每维权重 $w_i$ 为1，当d < i≤d时，每维权重 $w_i$ 为0.1， $w_i$ 降低了PCA重构误差损失的权重

在这里插入图片描述

单层噪声
设置 $\sigma=\sqrt{1/3}$ ，指标下降为61.5%下降了三个点

结论：
使用多级噪声类似于DAE中的一种数据增强形式:它是有益的，但不是促成因素
DDM的表示能力主要是通过去噪驱动过程获得的，而不是扩散驱动过程

总结

在这里插入图片描述

可视化可以帮助更好地理解l-DAE如何学习良好的表示

l-DAE，它在很大程度上类似于经典DAE，可以在自监督学习中表现得很有竞争力。关键分量是加有噪声的低维潜在空间。

原文地址:https://blog.csdn.net/weixin_50973728/article/details/136918578 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1771082405755621376.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

13、Deconstructing Denoising Diffusion Models for Self-Supervised Learning

简介

背景

实验过程

noise

Tokenizer

Autoencoders

总结

相关推荐

最近更新

热门阅读