车道拓扑、目标布局、天气条件全都要！Text2Street：犀利的街景生成神器！

文本到图像生成在扩散模型的出现下取得了显著进展。然而，基于文本生成街景图像仍然是一项困难的任务，主要是因为街景的道路拓扑复杂，交通状况多样，天气情况各异，这使得传统的文本到图像模型难以处理。为了解决这些挑战，今天给大家分享一个新颖的可控文本到图像框架，名为Text2Street。在该框架中，首先引入了基于车道的道路拓扑生成器，通过计数适配器实现文本到地图的生成，具有准确的道路结构和车道线，实现可控道路拓扑生成。然后，提出了基于位置的目标布局生成器，通过目标级边界框扩散策略获得文本到布局的生成，实现可控交通目标布局生成。最后，设计了多控制图像生成器，将道路拓扑、目标布局和天气描述集成在一起，实现可控街景图像生成。大量实验表明，所提出的方法实现了可控的街景文本到图像生成，并验证了Text2Street框架在街景中的有效性。

介绍

文本到图像生成，作为计算机视觉的一个重要任务，旨在仅基于文本描述生成连贯的图像。近年来，针对常见场景（如人物和目标）的文本到图像生成已经付出了很多努力。特别是随着扩散模型的出现，取得了显著进展。然而，在专业领域生成图像同样具有重要价值，包括自动驾驶、医学图像分析、机器人感知等。对于街景的文本到图像生成在自动驾驶感知和地图构建的数据生成方面具有特殊重要性，但目前仍相对未被充分探索。

街景文本到图像生成作为一个尚未充分开发的任务，面临着几个严峻的挑战，可以分为三个主要方面。首先，生成符合交通规则的道路拓扑结构是一个挑战。一方面，如下图1（a）所示，从文本-图像对中学习道路结构受限于图像中不完整的道路结构信息，这是由于有限的成像角度和频繁的遮挡所导致的。这种复杂性使得在nuScenes数据集上微调的稳定扩散模型难以生成预期的图像。另一方面，如下图1（b）所示，生成符合交通规则且与文本中指定的车道线数量相匹配的车道线也是一个极具挑战性的任务。第二，交通状态的表示是街景图像中的一个关键元素，通常通过存在的交通目标数量来实现。然而，使用当前模型生成指定数量的交通目标并遵循运动规则经常无法达到预期。如下图1（c）所示，现有方法往往缺乏对精确数字要求的敏感性。例如，尽管我们的目标是生成一个有两辆车的道路场景，但稳定扩散模型的实际输出往往包括数量明显更多的车辆。最后，天气条件通常取决于场景内容，基于这些条件直接生成图像往往会产生模糊或次优结果，如下图1（d）所示。由于存在这三个挑战，街景文本到图像生成是计算机视觉中一项具有挑战性的任务。

为了解决前面提到的挑战，本文提出了一种新颖的用于街景的可控文本到图像框架，称为Text2Street，如图2所示。

在这个框架内，首先引入了基于车道的道路拓扑生成器，利用文本描述创建表示复杂道路拓扑的局部语义地图。该生成器还通过计数适配器在语义地图内生成符合指定数量和交通规则的车道线。随后引入了基于位置的目标布局生成器，以捕获多样化的交通状态。通过采用目标级边界框扩散策略，它根据文本描述生成符合指定数量和交通规则的交通目标布局。最后，通过姿态采样，将道路拓扑和目标布局投影到相机的成像视角中。通过多控制图像生成器将投影的道路拓扑、目标布局和文本天气描述集成在一起，生成最终的街景图像。实验验证证实了我们提出的方法从文本输入生成街景图像的有效性。

本文的主要贡献如下：

提出了一种新颖的用于街景的可控文本到图像框架，仅基于文本描述实现了对道路拓扑、交通状态和天气条件的控制。
引入了基于车道的道路拓扑生成器，能够生成特定的道路结构以及车道拓扑。
提出了基于位置的目标布局生成器，能够生成符合交通规则的特定数量的交通目标。
提出了多控制图像生成器，能够整合道路拓扑、交通状态和天气条件，实现多条件图像生成。

实验和结果

实验设置

数据集。 为了验证所提出方法的性能，在公共自动驾驶数据集 nuScenes 上进行所有实验。nuScenes 数据集包含 1,000 个街景场景（分别用于训练/验证/测试的数量为 700/150/150）。每个场景大约包含 40 帧，每帧包括由安装在自动驾驶车辆上用于全景视图的六个摄像头拍摄的六个 RGB 图像。此外，每帧都带有一个包含 32 种语义类别的标注语义地图。为了简单起见，在所有实验中仅使用由前置摄像头拍摄的图像。

评估指标。为了全面评估街景图像的文本到图像生成，从图像级别和属性级别对生成结果进行评估。

在图像级别评估中，使用Frechet Inception Distance (FID) SFID来衡量图像的保真度，以及CLIP分数SCLIP来衡量图像与文本的对齐性。

在属性级别评估中，主要衡量文本到图像街景生成在四个方面的准确性：道路结构、车道线计数、交通目标计数和天气状况。对于这四个指标，在nuScenes数据集上训练了四个神经网络来评估生成图像的分数。具体来说，基于ResNet-50的两类分类器用于道路结构准确性Sroad的训练，以区分街景RGB图像中的道路结构是“交叉口”还是“非交叉口”。对于车道线计数准确性Slane，类似地，在ResNet-50上训练了一个六类分类器，以区分街景RGB图像中车道线的数量是否等于0、1、2、3、4或≥ 5。对于交通目标计数准确性，基于YOLOv5的目标检测器被训练用于评估街景RGB图像中交通目标的数量。对于天气状况准确性，还在ResNet-50上训练了一个四类分类器，以区分街景RGB图像中的天气状况是晴天、晴夜、雨天还是雨夜。所有模型均在nuScenes训练数据集上进行训练，并用作街景图像生成的属性级别评估的评估指标。

训练和推断。在训练阶段，分别训练了三个生成器，即车道感知道路拓扑生成器（LRTG）、基于位置的目标布局生成器（POLG）和多重控制图像生成器（MCIG）。LRTG和MCIG使用Stable Diffusion进行初始化，POLG基于带有ControlNet修改的DDPM进行随机初始化，并且CLIP 文本编码器采用预训练权重固定。对于这三个生成器，使用AdamW优化器进行10个epochs的训练，学习率为，batch size大小为32。此外，LRTG中的语义地图被调整为512×512的分辨率，MCIG中的RGB图像被调整为895×512的分辨率。在推断阶段，这三个生成器按顺序进行推断，去噪迭代次数都设置为30次。

与最先进方法的比较

将我们的方法与几种最先进的文本到图像生成算法进行比较，包括Stable Diffusion、Stable Diffusion 2.1和Attend-and-Excite在nuScenes验证数据集上的表现，如下表1所列。这些方法都是在nuScenes训练数据集上进行微调的。请注意，我们还将在nuScenes验证数据集上的性能列为“参考”。

将我们的方法与最先进方法进行比较，可以看到，我们的方法在表1中几乎所有指标上都表现出色。特别是，我们的方法在属性级别指标（即）上表现最佳，表现出了对于细粒度的文本到图像街景图生成的优越可控性。具体而言，相对于第二表现最好的方法，我们的方法在指标上分别表现出了明显的4.50%和14.91%的改进。此外，我们的方法在图像级别指标（即）上也表现更好，反映了其整体生成质量和图像-文本一致性的优越性。总的来说，这些观察结果验证了我们提出的方法在街景图像可控生成方面的有效性。

我们的方法生成的视觉示例如下图6所示。从下图6可以明显看出，与其他方法相比，我们的方法在处理不同道路结构（第1和第4行）、不同车道线数量（第1和第3行）、不同数量的交通目标（第1和第2行）以及不同天气条件（第2和第3行）时都能产生更好的结果。这表明我们的方法可以有效地仅基于文本生成街景图像，并暗示了其在街景文本到图像生成中的可控性和优越性。

消融分析

为了评估各个组件的有效性，在nuScenes验证数据集上进行了消融实验，比较了提出方法内部性能的变化。

首先，为了验证车道感知道路拓扑生成器（LRTG）的有效性，引入了三个模型进行消融比较。第一个模型，称为“基线”，是一个仅带有文本编码器的简单多重控制图像生成器（MCIG），实际上是一个 Stable Diffusion 模型。第二个模型，称为“”，是在“基线”的基础上增加了不包括车道线控制的 LRTG。第三个模型，“A2”，在第一个模型的基础上添加了具有车道线控制的 LRTG。这三个模型的比较如下表2的前三行所示。可以观察到，引入道路结构控制（“A1”）显著提高了指标，而同时引入道路结构和车道线（“”）进一步提升了指标。这证实了LRTG在控制道路拓扑方面的有效性。

第二，为了验证基于位置的目标布局生成器（POLG）的有效性，将POLG添加到“基线”中，称为“B”。比较前面表2的第一行和第四行，显然，包含POLG显著提高了指标，证明了POLG在交通目标生成中的控制能力。

第三，为了验证不同模块的兼容性，我们还列出了模型“C”（即Text2Street），该模型结合了所有三个模块。从前面表2的最后一行可以看出，“C”在所有指标上都取得了最佳性能，确认了不同模块之间的兼容性。

目标检测的文本到图像生成

为了展示街景文本到图像生成对下游任务的实用性，选择目标检测作为代表性任务。使用提出的Text2Street基于随机提示生成30,000张图像，作为原始训练数据的补充，以在nuScenes数据集上训练YOLOv5，如表3所示。结果表明，我们方法生成的图像对于下游街景任务是有益的，突显了街景文本到图像生成的潜力。

图像编辑

除了街景文本到图像生成外，本文方法还允许对局部语义地图、目标布局或文本进行修改，从而在最初生成的RGB图像中编辑道路结构、车道线、目标布局和天气条件，如下图7所示。

结论

本文提出了一种新颖的用于街景的可控文本到图像生成框架。这个框架设计了车道感知道路拓扑生成器，以文本到地图的方式对道路拓扑施加控制。此外，提出了基于位置的目标布局生成器，通过文本到布局的方式控制交通目标的布局。此外，多重控制图像生成器被构建起来，以整合多重控制来生成街景图像。实验结果证实了所提出方法的有效性。