CVPR 2024 | DEADiff：稳定可控的文本到图像风格化扩散模型（中科大&字节）

文章链接：https://arxiv.org/pdf/2403.06951

本文介绍了一种名为DEADiff的方法，旨在解决基于扩散的文本到图像模型在风格迁移时遇到的问题。当前的基于编码器的方法显著影响了文本到图像模型在风格迁移时的文本可控性。为了解决这个问题，DEADiff采用了以下两种策略：

解耦风格和语义的机制。通过Q-Formers首先提取解耦的特征表示，这些特征表示受不同的文本描述指导。然后将它们注入到互斥的交叉注意力层的子集中，以更好地解耦风格和语义。
非重构性学习方法。Q-Formers使用成对图像进行训练，而不是相同的目标图像。在这种情况下，参考图像和真值图像具有相同的风格或语义。

事实表明，DEADiff实现了最佳的视觉风格化结果，并在文本到图像模型中固有的文本可控性和与参考图像的风格相似性之间实现了最佳平衡，这一点在定量和定性方面都得到了证明。

项目链接：https://tianhao-qi.github.io/DEADiff/

介绍

最近，由于其惊人的性能，扩散模型在文本到图像生成领域引发了广泛的研究。由于扩散模型缺乏增强的可控性，如何稳定可靠地引导它们遵循由参考图像定义的预定风格变得棘手起来。

综合考虑效果和效率，一种流行的风格转移方法是围绕额外编码器的方法。基于编码器的方法通常训练一个编码器，将参考图像编码为信息特征，然后将这些特征注入到扩散模型中作为其引导条件。

需要注意的是，与需要多次迭代学习的基于优化的方法相比，基于编码器的方法非常高效，因为它只需要一次计算。通过这样一个编码器，可以提取高度抽象的特征，有效地描述参考图像的风格。

这些丰富的风格特征使得扩散模型能够准确地理解它需要合成的参考图像的风格，如下图1左侧所示，典型的方法（例如T2I-Adapter）可以生成自然忠实的参考风格。然而，这种方法也引入了一个特别棘手的问题：虽然它允许模型跟随参考图像的风格，但显著降低了模型在理解文本条件的语义上的性能。

文本可控性的丧失主要源于两个方面。

一方面，编码器提取的信息将风格与语义耦合在一起，而不仅仅是纯粹的风格特征。具体来说，先前的方法在其编码器中缺乏有效的机制来区分图像风格和图像语义。因此，提取的图像特征不可避免地包含了风格和语义信息。这种图像语义与文本条件中的语义冲突，导致对基于文本的条件的控制力降低。

另一方面，先前的方法将编码器的学习过程视为一种重构任务，其中参考图像的真值是图像本身。与训练文本到图像模型遵循文本描述相比，从参考图像的重构中学习通常更容易。因此，在重构任务下，模型倾向于关注参考图像，而忽视文本到图像模型中的原始文本条件。

针对以上问题，本文提出了DEADiff，以在不损失文本条件可控性的情况下，有效地将参考风格转移到合成图像上。DEADiff由两个组成部分组成。

首先，从特征提取和特征注入的角度解耦参考图像中的风格和语义。对于特征提取，提出了一种双重解耦表示提取机制（DDRE），该机制利用Q-Former从参考图像中获取风格和语义表示。Q-Former通过“风格”和“内容”条件进行指导，选择性地提取与给定指令对齐的特征。对于特征注入，引入了一个解耦的条件机制，将解耦的表示注入到交叉注意力层的互斥子集中，以更好地解开纠缠，这受到了扩散U-Net中不同交叉注意力层对风格和语义表现出不同响应的启发。

其次，提出了一种非重构训练范式，从配对的合成图像中学习。具体来说，由“风格”条件指导的Q-Former使用具有与参考图像和真值图像相同风格的配对图像进行训练。与此同时，由“内容”条件指导的Q-Former则通过具有相同语义但不同风格的图像进行训练。

通过风格和语义解耦机制以及非重构训练目标，DEADiff可以成功模仿参考图像的风格，并忠实于各种文本提示，如上图1（b）所示。与基于优化的方法相比，DEADiff更加高效，同时保持出色的风格转移能力。与传统的基于编码器的方法相比，DEADiff可以有效地保持文本的控制能力。此外，DEADiff消除了手动调整琐碎参数（例如以往方法通常需要的特征融合权重，如T2I-Adapter）来获得令人满意的风格的需要。

本文贡献有三个方面：

提出了一种双重解耦表示提取机制，可以分别获取参考图像的风格和语义表示，从学习任务的角度缓解了文本和参考图像之间的语义冲突问题。
引入了一个解耦的条件机制，允许交叉注意力层的不同部分分别负责注入图像风格/语义表示，从模型结构的角度进一步减少语义冲突。
建立了两个配对数据集，以协助使用非重构训练范式的DDRE机制。

方法

准备工作

SD是一种潜在扩散模型，它在潜空间内执行一系列逐渐去噪的操作，并将去噪后的潜code重新映射到像素空间，从而生成最终的输出图像。在训练过程中，SD首先通过变分自编码器将输入图像x投射到潜在code z中。

在随后的阶段中，时间步骤t的噪声潜在代码作为去噪U-Net 的输入，该U-Net通过交叉注意力与文本提示c进行交互。这个过程的监督由以下目标来确保：

其中，ε表示从标准高斯分布中采样的随机噪声。

双重解耦表示提取

受BLIP-Diffusion的启发，后者通过具有不同背景的合成图像对学习主体表示，以避免琐碎解。整合了两个辅助任务，利用Q-Formers作为表示过滤器，嵌套在非重构范式中。这使能够隐式地识别图像中风格和内容的解耦表示。

一方面，采样一对不同的图像，两者保持相同的风格，但分别作为Stable Diffusion（SD）生成过程的参考和目标，如图下2(a)中的A对所示。

将参考图像输入到CLIP图像编码器中，其输出与Q-Former的可学习query token及其输入文本通过交叉注意力进行交互。对于这个过程，选定“风格”作为输入文本，以期望生成与文本对齐的图像特征作为输出。这个输出，封装了风格信息，然后与详细描述目标图像内容的描述相结合，并提供给去噪U-Net进行条件控制。这种提示构成策略的动力在于更好地解开风格和内容描述之间的纠缠，使Q-Former更加专注于提取以风格为中心的表示。这个学习任务被定义为风格表示提取，简称STRE。

另一方面，结合了一个相应的对称内容表示提取任务，称为SERE。如前面图2(a)中的B对所示，选择两幅图像，它们具有相同的主题，但展现出不同的风格，这些图像分别被指定为参考和目标图像。重要的是，将Q-Former的输入文本替换为“内容”一词，以提取相关的内容特定表示。为了获取纯净的内容表示，将Q-Former的query token的输出与目标图像的文本风格词同时提供给去噪U-Net作为条件。通过这种方法，Q-Former在生成目标图像的同时将筛选掉与内容无关的信息，嵌套在CLIP图像embedding中。

同时，将重构任务整合到整个流程中。这个学习任务的条件提示由“风格”Q-Former和“内容”Q-Former处理的 query token组成。通过这种方式，可以确保Q-Formers不会忽视关键的图像信息，考虑到内容和风格之间的互补关系。

解耦条件机制

受[31]中观察到的不同交叉注意力层在去噪U-Net中主导合成图像的不同属性的启发，引入了一种创新的解耦条件机制（DCM）。本质上，DCM采用了一种策略，将具有较低空间分辨率的粗层置于语义条件下，而具有较高空间分辨率的细层则置于风格条件下。

如前面图2(a)所示，仅将具有“风格”条件的Q-Former的输出 query 注入到细层中，这些细层响应于局部区域特征，而不是全局语义。这种结构性的调整促使Q-Former在输入“风格”条件时提取更多的风格导向特征，例如图像的笔触、纹理和颜色，同时减弱了其对全局语义的关注。因此，该策略使得风格和语义特征的解耦更加有效。

同时，为了使去噪U-Net支持图像特征作为条件，设计了一个联合文本-图像交叉注意力层，如下图3所示。

与IP-Adapter类似，包含了两个可训练的线性投影层，来处理图像特征，与文本特征一起，还包括了冻结的线性投影层，。然而，不是独立地对图像和文本特征执行交叉注意力，而是分别从文本和图像特征中连接键和值矩阵，随后使用U-Net query 特征Z进行单个交叉注意力操作。形式上，这种组合的文本-图像交叉注意力过程的公式化如下：

配对数据集构建

准备具有相同风格或主题的图像对是一项非常重要的工作。幸运的是，现有的最先进文本到图像模型已经证明了对给定文本提示的强大忠实度。因此，我们手动创建了一个文本提示列表，通过结合主题词和风格词，并利用预训练模型构建了两个配对的图像数据集 - 一个具有相同风格的样本，另一个具有相同主题的样本。具体而言，构建配对数据集包括以下三个步骤：

步骤1：文本提示组合。 列出了近12,000个主题词，涵盖了四个主要类别：人物、动物、物体和场景。此外，还记录了近700个风格词，包括艺术风格、艺术家、笔触、阴影、镜头、分辨率和视角等属性。然后，平均每个主题词分配了大约14个来自所有风格词的风格词，这些组合形成了用于文本到图像模型的最终文本提示。
步骤2：图像生成和收集。 将文本提示与主题词和风格词结合后，得到了超过160,000个文本提示。随后，将所有文本提示发送到Midjourney，这是一个领先的文本到图像生成产品，用于合成相应的图像。作为Midjourney的特点，给定提示的直接输出包括4张分辨率为512×512的图像。将每个图像上采样到分辨率为1024×1024，并与给定的提示一起存储。由于数据收集中的冗余性，最终收集了共计106万个图像-文本对。
步骤3：配对图像选择。 我们观察到，即使具有相同的风格词，使用不同的主题词生成的图像也存在显著差异。考虑到这一点，在风格表示学习任务中，使用两个具有相同提示的不同图像，分别作为参考和目标，如前面图2(a)所示。为了实现这个目标，将具有相同提示的图像存储为单个项目，并在每次迭代中随机选择两个图像。至于图2(b)中描述的内容表示学习任务，将具有相同主题词但不同风格词的图像配对为一个单独的项目。最终，为前一个任务获得了超过160,000个项目的数据集，而为后一个任务获得了106万个项目的数据集。

训练和推理

采用公式(1)中描述的损失函数来监督上述三个学习任务。在训练过程中，只有Q-Former和新添加的线性投影层被优化。推理过程如前面图2(b)所示。

实验

实验设置

实现细节。采用Stable Diffusion v1.5 作为我们的基础文本到图像模型，该模型包括总共 16 个交叉注意力层。按照从输入到输出的顺序对它们进行编号，定义层 4-8 为粗层，用于注入图像内容表示。因此，其他层被定义为用于注入图像风格表示的细层。使用来自 CLIP 的 ViT-L/14 作为图像编码器，并保持 Q-Former 的可学习 query token数量与 BLIP-Diffusion 一致，即为 16。采用两个 Q-Formers 分别提取语义和风格表示，以鼓励它们专注于自己的任务。

为了快速收敛，使用 HuggingFace 中由 BLIP-Diffusion 提供的预训练模型初始化 Q-Former。至于额外的投影层，，我们将它们的参数初始化为，的参数。在训练期间，我们根据前面中所述的三个学习任务的采样比率设置为1:1:1，以同等地训练风格 Q-Former 和内容 Q-Former。我们固定图像编码器、文本编码器和原始 U-Net的参数，仅更新 Q-Former、16 个可学习 query 和额外的投影层，的参数。模型在 16 个 A100-80G GPU 上以总batch大小为 512 进行训练。采用 AdamW 作为优化器，学习率为，训练 100000 次迭代。至于推理阶段，采用 DDIM采样器进行 50 步采样。无分类器指导的指导尺度为 8。

数据集。使用自建数据集来训练我们的模型。初始数据集包含 106 万个图像-文本对，用于重构任务。采用具有相同风格的 160000 对图像用于风格表示学习任务，而使用具有相同语义的 106 万对图像用于语义表示学习任务。有关自建数据集的更详细信息，请参阅补充材料。为了评估 DEADiff 的有效性，构建了一个评估集，其中包括从 WikiArt 数据集和 Civitai 平台收集的 32 个风格图像。排除了在 StyleAdapter中发布的冗余主题的文本提示，将原始的 52 个减少到最终的 35 个。遵循 StyleAdapter 的做法，采用 Stable Diffusion v1.5 生成与这 35 个文本提示相对应的内容图像，便于与风格转移方法进行比较，例如 CAST和。

评估指标。在缺乏准确和合适的评估风格相似度（SS）的度量标准的情况下，我们提出了一个更合理的方法。此外，在 CLIP 文本-图像embedding空间内确定文本提示与其对应的合成图像之间的余弦相似度，这表明了文本对齐能力（TA）。还报告了每种方法的图像质量（IQ）的结果。最后，为了消除客观度指标计算中随机性带来的干扰，进行了用户研究，反映了结果的主观偏好（SP）。

与现有SOTA技术的比较

将我们的方法与最先进的方法进行比较，包括无优化方法，如CAST、StyleTr2、T2I-Adapter、IP-Adapter和StyleAdapter，以及基于优化的方法，如InST。需要注意的是，由于StyleAdapter没有开放源代码，我们直接使用其发布的论文结果进行演示。

定性比较。下图4展示了与最先进方法的比较结果。从这张图中，可以得出几个值得注意的观察结果。

首先，基于内容图像的风格迁移方法，如CAST和，它们不使用扩散模型，从而避免了文本控制减少的问题。然而，它们仅执行直接的颜色迁移，避免了从参考图像中提取更独特的特征，如笔触和纹理，导致每个合成结果中都存在明显的伪影。因此，当这些方法遇到具有复杂风格参考和大量内容图像结构复杂性的情况时，它们的风格转移能力明显降低。

另外，对于使用扩散模型进行重建目标训练的方法，无论是基于优化的（InST）还是无优化的（T2I-Adapter），它们通常都会在生成的结果中受到来自参考图像的语义干扰，如图4的第一行和第四行所示。这与我们之前的语义冲突问题的分析相一致。第三，虽然随后改进的工作StyleAdapter有效地解决了语义冲突的问题，但它学习到的风格并不理想。它失去了参考图像的细节笔触和纹理，颜色也有明显的差异。

最后，IP-Adapter通过对每个参考图像进行精细的权重调整，可以实现不错的结果，但其合成输出要么引入了一些来自参考图像的语义，要么风格退化。相反，我们的方法不仅更好地遵循了文本提示，而且显著保留了参考图像的整体风格和详细纹理，颜色色调之间的差异非常小。

定量比较。下表1展示了我们的方法与构建的评估集上最先进方法在风格相似性、图像质量、文本对齐和总体主观偏好方面的比较结果。我们从这张表中得出几个结论。

首先，除了没有进行精细权重调整的T2I-Adapter和IP-Adapter（它们生成的结果通常是参考图像的重新组织，其低的文本对齐得分证明了这一点），我们的方法达到了最高的风格相似性，这表明我们的方法确实在一定程度上有效地捕捉了参考图像的整体风格。

其次，我们的方法在文本对齐方面与生成内容图像的两种基于SD的方法CAST和相当。这表明我们的方法在学习参考图像的风格时并没有牺牲SD的原始文本控制能力。

第三，与所有其他方法相比，我们的方法在图像质量度量方面具有显著优势，证实了我们方法的实用性。此外，如上面表1的最右一列所示，用户对我们的方法表现出了明显更高的偏好。总之，DEADiff在文本保真度和图像相似性之间实现了最佳平衡，并具有最令人愉悦的图像质量。

与StyleDrop的比较。此外，下图5展示了我们的方法与StyleDrop之间的视觉比较。总的来说，尽管DEADiff在颜色准确性方面略逊于基于优化的StyleDrop，但在艺术风格和对文本的忠实度方面，它取得了相当甚至更好的结果。DEADiff生成的小屋、帽子和机器人更加合适，并且不会遭受参考图像中固有的语义干扰。这证明了从参考图像中解耦语义的关键作用。

消融研究

为了理解DEADiff中每个组件的作用，进行了一系列的消融研究。下表2呈现了所有配置下的定量结果，而下图6列举了代表性的视觉结果。

值得注意的是，基线指的是将Q-Former提取的图像特征注入到UNet的所有交叉注意力层中，该模型是使用重构范式训练的。在每个配置上，在训练50,000次迭代后对评估集进行评估。

解耦的条件机制。结合表2的前两行和图6的第二列和第三列，可以清楚地看到，重构训练范式不可避免地引入了来自参考图像的语义信息，遮蔽了文本提示的控制能力。尽管解耦的条件机制通过利用U-Net在不同层对条件的不同响应特性来增强它，如视觉结果和更高的文本对齐所证实的那样，但图像特征中的语义成分仍然与文本语义相冲突。

双重解耦表示提取。参考表2的最后三行和图6的最右边三列，观察到与以前的解耦条件机制相比，在文本可编辑性方面有显著的提升，并且进一步取得了进步。

具体来说，STRE（表2中的第三行）引入了一种非重构训练范式，使得由Q-Former提取的特征能够更多地关注参考图像的风格信息，从而减少了其中包含的语义成分。

因此，参考图像的内容立即从生成的结果中消失，如图6的第四列所示。此外，虽然引入SERE（表2中的倒数第二行）似乎对结果影响有限，但其与STRE（表2中的最后一行）的组合以重构原始图像，确保提取的两个表示解耦，互补而没有遗漏。正如图6的最后一列所示，文本控制能力得到了完美的体现，同时全面复制了参考图像的风格。