13、Deconstructing Denoising Diffusion Models for Self-Supervised Learning

简介

研究了最初用于图像生成的去噪扩散模型(DDM)的表示学习能力
解构DDM,逐步将其转变为经典的去噪自动编码器(DAE)
探索现代ddm的各个组成部分如何影响自监督表征学习

结论:
只有很少的现代组件对于学习良好的表示是至关重要的,而其他许多组件则是不必要的
DDM的表示能力主要是由去噪驱动的过程获得的,而不是扩散驱动的过程
成果:一种高度简化的方法,并且在很大程度上类似于经典的DAE——l-DAE

在这里插入图片描述
通过主成分基(即V)将输入图像投影到隐空间中,在隐空间中加入噪声,并通过逆主成分基将带噪声的隐投影回图像空间

上图(中间,底部)显示了在潜在空间中添加噪声的示例图像

将这个有噪声的图像作为网络的输入,可以应用一个标准的ViT网络,它直接对图像进行操作,就好像没有tokenizer一样

背景

Denoising Diffusion Models (DDM) 实现了令人印象深刻的图像生成质量,特别是对于高分辨率、逼真的图像,对于理解视觉内容似乎具有很强的识别表征

t时间步的噪声图像为
在这里插入图片描述
ϵ ∼ N ( 0 , I ) \epsilon \sim N(0,I) ϵN(0,I), γ t 2 + σ t 2 = 1 \gamma^2_t + \sigma^2_t=1 γt2+σt2=1

网络预测噪声拟合增加的噪声
在这里插入图片描述

实验过程

noise

去掉DDM的分类条件

假设直接对模型进行类标签的调节可以减少模型对与类标签相关的信息编码的需求。移除类条件可以迫使模型学习更多的语义

采用线性衰减噪声噪声

实验结果
在这里插入图片描述

在这里插入图片描述

结论:自监督学习绩效与生成质量无关

Tokenizer

更换Tokenizer,分别为Convolutional VAE、Patch-wise VAE、Patch-wise AE和Patch-wise PCA
在这里插入图片描述
在这里插入图片描述

结论:标记器的潜在维数是DDM在自监督学习中发挥作用的关键

卷积VAE标记器既不是必要的,也不是有利的;相反,所有基于补丁的标记器,其中每个补丁都是独立编码的,彼此之间的表现相似,并且始终优于Conv VAE变体。此外,KL正则化项是不必要的,因为AE和PCA变体都能很好地工作

结论:高分辨率、基于像素的ddm不如自监督学习。

Autoencoders

不同与DDM预测噪声,经典DAE直接预测清晰图像
在这里插入图片描述
λ t = γ t 2 / σ t 2 \lambda_t =\gamma^2_t / \sigma^2_t λt=γt2/σt2,实验设置 λ t = γ t 2 \lambda_t=\gamma^2_t λt=γt2效果更好

去掉输入缩放
设置 γ t = 1 \gamma_t=1 γt=1, σ t \sigma_t σt是0到 2 \sqrt{2} 2 的线性变化, λ t = 1 / ( 1 + σ t 2 ) \lambda_t=1/(1+\sigma^2_t) λt=1/(1+σt2)
在这里插入图片描述
结论:不需要按 γ t \gamma_t γt缩放数据3

用逆PCA对图像空间进行操作

通过主成分基(即V)将输入图像投影到隐空间中,在隐空间中加入噪声,并通过逆主成分基将带噪声的隐投影回图像空间,将这个有噪声的图像作为网络的输入,可以应用一个标准的ViT网络,它直接对图像进行操作,就好像没有tokenizer一样
在这里插入图片描述

结论:用逆主成分分析对图像空间进行处理可以获得与对潜在空间进行处理相似的结果

预测原始图像(l-DAE

PCA对于任何降维d都是有损编码器

当让网络预测原始图像时,引入的“噪声”包括两部分:(i)加性高斯噪声,其固有维数为d; (ii) PCA重构误差,其固有维数为D - d (d为768)

使用干净的原始图像 x 0 x_0 x0和网络预测网( x t x_t xt),可以计算投影到完整PCA空间上的残差 r ≜ V ( x 0 − n e t ( x t ) ) r \triangleq V(x_0-net(x_t)) rV(x0net(xt)),V是表示完整PCA基的D乘D矩阵

损失函数为:
在这里插入图片描述
i 表示向量 r 的第 i 维,当 i≤d 时,每维权重 w i w_i wi 为1,当d < i≤d时,每维权重 w i w_i wi 为0.1, w i w_i wi 降低了PCA重构误差损失的权重

在这里插入图片描述

单层噪声
设置 σ = 1 / 3 \sigma=\sqrt{1/3} σ=1/3 ,指标下降为61.5%下降了三个点

结论:
使用多级噪声类似于DAE中的一种数据增强形式:它是有益的,但不是促成因素
DDM的表示能力主要是通过去噪驱动过程获得的,而不是扩散驱动过程

总结

在这里插入图片描述
在这里插入图片描述
可视化可以帮助更好地理解l-DAE如何学习良好的表示

l-DAE,它在很大程度上类似于经典DAE,可以在自监督学习中表现得很有竞争力。关键分量是加有噪声的低维潜在空间。

相关推荐

  1. 1213日总结

    2024-03-22 15:52:05       74 阅读
  2. <span style='color:red;'>12</span>.<span style='color:red;'>11</span>

    12.11

    2024-03-22 15:52:05      61 阅读
  3. <span style='color:red;'>12</span>.<span style='color:red;'>11</span>

    12.11

    2024-03-22 15:52:05      58 阅读
  4. 12.15

    2024-03-22 15:52:05       70 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-22 15:52:05       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-22 15:52:05       101 阅读
  3. 在Django里面运行非项目文件

    2024-03-22 15:52:05       82 阅读
  4. Python语言-面向对象

    2024-03-22 15:52:05       91 阅读

热门阅读

  1. k8s工作节点主要模块

    2024-03-22 15:52:05       38 阅读
  2. 大数据开发(HBase真题)

    2024-03-22 15:52:05       35 阅读
  3. Puppet 2024年度报告:平台工程发掘 DevOps 无限潜质

    2024-03-22 15:52:05       42 阅读
  4. 后台发送GET/POST方法

    2024-03-22 15:52:05       41 阅读
  5. Qt Excel文件读写

    2024-03-22 15:52:05       38 阅读
  6. 9. Linux 信号详解

    2024-03-22 15:52:05       46 阅读
  7. 在Linux/Ubuntu/Debian中创建自己的命令快捷方式

    2024-03-22 15:52:05       42 阅读
  8. 以太网网络变压器

    2024-03-22 15:52:05       37 阅读
  9. nginx的location规则与其他功能

    2024-03-22 15:52:05       37 阅读