Applications of graph convolutional networks in computer vision图卷积在计算机视觉的应用

在这里插入图片描述

摘要：图卷积网络(Graph Convolutional Network, GCN)是近年来深度学习领域研究的热点之一，它对非欧几里得空间数据之间的潜在关系进行了建模。它通过对欧几里得空间数据中的潜在空间、拓扑、语义等信息进行建模，已广泛应用于不同的计算机视觉任务中，并取得了显著的成功。为了更好地理解GCN的工作原理和未来在计算机视觉领域的应用，本文综述了GCN的基本原理，总结了GCN在不同视觉任务中使用的难点和解决方案，并详细介绍了在不同视觉任务中利用欧几里得空间数据构造图的方法。同时，综述将GCN在基本视觉任务中的应用分为图像识别、目标检测、语义分割、实例分割和目标跟踪。对GCN在基本视觉任务中的作用和表现进行了总结和比较。本文强调了GCN在计算机视觉中的应用面临三个挑战:计算复杂性、从欧几里得空间数据构建图的范式以及模型的可解释性。最后，本文提出了GCN在视觉领域的两个未来发展趋势，即模型轻量化和GCN与其他模型的融合，以提高视觉模型的性能，满足视觉任务的更高要求。
一. 引言
卷积神经网络(Convolutional Neural Network, CNN)具有强大的建模能力[1,2]，可以从欧氏数据中提取和处理有效的数据表示。因此，它已被广泛用于处理计算机视觉任务，并在计算机视觉方面取得了显著的进步。尽管cnn取得了巨大的成功，但它们难以对特定学习任务的内在图结构进行编码[3]，因此忽略了图像中潜在的空间、拓扑和语义信息。为了考虑图像中潜在信息与任务之间的相关性，Gong等[4]提出了一种基于排名的学习策略来训练深度CNN。Wang等[5]使用递归神经网络(rnn)将图像标签转换为嵌入的标签向量，可以考虑标签之间的相关性。另一方面，注意机制已被广泛用于模拟图像中的潜在关系。Zhu等[6]提出了一种基于加权注意图的空间正则化网络来捕获图像的语义和空间关系。Wang等[7]引入了空间转换层和长短期内存(LSTM)单元捕获图像标签相关性。
除了上面提到的结构方法外，还使用了许多图方法进行相关建模。Li等人[8]在图形套索框架中生成了一个与图像相关的条件标签结构。Li等[9]利用最大生成树算法在标签空间中建立了树形结构图。Lee等人[10]使用知识图来描述多个标签之间的关系。2019年，匡石提出了一种基于图卷积神经网络(Graph Convolutional Neural Network, GCN)的多标签图像识别方法[11]，彻底打开了GCN计算机视觉的大门。
GCN由Bruna等人[12]于2013年提出。作为一种新的卷积网络结构，将使卷积通常用于深度学习的方法应用到图数据中。自2017年Kipf等[13]首次将GCN用于解决半监督分类问题以来，GCN已成为深度学习领域的研究热点。GCN模型是一种神经网络体系结构，它利用图的结构在卷积中从邻居中收集节点信息。GCN具有很强的学习图表示的表达能力，在不同的任务和应用中都取得了优异的表现[3]。
目前，GCN主要用于解决非欧几里德空间数据问题。通过对非欧几里德空间数据的结构信息进行编码，对实体之间的关系进行建模，挖掘数据之间的潜在关系。随着GCN的不断发展，它已经被应用到许多领域，如网络分析[14-22]、推荐系统[23-26]、流量预测[27-29]、生物化学[30-35]、自然语言处理[36-41]、计算机视觉[42-46]。
最近有一些关于GCN的评论。Zhang等人[3]对GCN进行了详细的回顾，包括了除基本GCN外的许多现有GCN变体，并重点讨论了在图上定义的卷积操作。Jie等[47]更详细地介绍了GCN中不同的计算模块，如传播模块、跳过连接、池操作等。文献[48-50]是近年来关于GCN的最新综述。Zhang等[48]将GNN分为四类:循环GCN、卷积GCN、图自编码器和时空GCN。Wu等[49]主要总结了不同的图深度学习方法。文献[50]主要统一了网络嵌入模型和GNN模型。上述总结工作主要集中在GCN模型上。虽然也有一些著作[3,47,49]介绍了GCN在计算机视觉中的应用，但也只是简单的提及，并不全面和具体。文献[3]介绍了GCN在图像分类和动作识别中的应用。文献[47]描述了GCN在少量(零)样本的图像分类、视觉推理和语义分割中的应用。文献[49]指出，GCN可以应用于场景地图生成、点云分类和动作识别等任务。然而，在这些综述中，对GCN在基本视觉任务中的作用、具体应用方法和有效性的深入探讨仍然缺乏。与上述工作不同的是，为了更全面深入地介绍GCN在计算机视觉领域的作用和应用前景，本研究总结了GCN的基本原理，以及GCN在视觉任务中遇到的困难和解决方案。讨论了GCN在不同视觉任务中的作用，在不同视觉任务中利用欧几里得空间数据构造图的方法，以及与传统CNN方法的性能比较。
本文组织的概述如图1所示。第2节介绍了GCN的应用背景，包括GCN的工作原理(2.1节)，以及在计算机视觉领域使用GCN的难点和解决方案(2.2节)。第3节详细分析了利用欧几里德空间数据(如图像或视频)构建图的方法，用于图像识别、目标检测、语义分割、实例分割和目标跟踪。第4节以构造好的图数据作为GCN的输入，介绍GCN在不同视觉任务中的作用，并与传统的CNN方法进行性能比较。第5节介绍了GCN在几种基本视觉任务中的应用所面临的挑战和未来的研究机会。综上所述，我们做出了以下贡献:

本文全面总结了GCN的基本原理、GCN遇到的困难和解决方案、GCN的作用、基于欧氏空间数据构造图的方法在不同视觉任务(图像识别、目标检测、语义分割、实例分割和目标跟踪)中的应用，以及与传统CNN方法的性能比较。
我们提出了GCN在计算机视觉中的应用面临的三个挑战:计算复杂性、从欧几里得空间数据构建图的范式以及GCN模型的可解释性。
我们还确定了GCN在计算机视觉中应用的未来趋势，包括模型轻量化和GCN与其他模型的融合，以提高视觉模型的性能，满足更高的视觉任务要求。本研究将为GCN在计算机视觉领域的应用提供新的研究思路和机遇。
二、GCN在视觉领域的应用背景
2.1 GCN的工作机制
本文详细介绍和总结了基于图滤波器的GCN的工作原理。图滤波器被定义为增强或衰减图信号的频率成分强度的操作。设图过滤器为:…

2.2 GCN在计算机视觉领域存在的困难及解决方案
在现有的GCN概述中[47-50]，构建GCN面临的挑战主要分为以下几个方面:

GCN在计算机视觉领域的应用。图数据是非欧几里德空间数据。图数据不满足平移不变性，且每个点具有不同的局部结构。然而，传统CNN中的基本算子(即卷积和池化)依赖于数据的平移不变性。2. 图形数据是多种多样的，具有不同的特征。现实生活中的许多应用都可以很自然地用图数据来表示。各种图形特征为构建GCN带来了更多的信息，但多特征的建模要求GCN设计更复杂、更精细，这给GCN设计带来了新的挑战。3. 图形数据的规模是巨大的。在大数据时代，实际应用中的泛化图可能包含数百万甚至数千万个节点。在可接受的时间和空间范围内在大尺度图上构建GCN也是一项挑战。
随着GCN技术的成熟，GCN已逐步应用于各个领域，并取得了显著的效果。然而，GCN在计算机视觉中的应用仍然存在一定的局限性，并且面临着与GCN构建不同的挑战。目前，GCN的概述还没有讨论这个问题。本文综述了GCN在计算机视觉领域应用所面临的挑战:1. 视觉数据是欧几里德空间数据。传统的视觉数据主要是图像或视频数据。图像和视频数据都是平移不变性的欧几里得空间数据，即每个节点的局部结构是相同的。GCN在非欧几里德空间数据中更能显示出建模能力。如何在欧几里得空间数据中挖掘非欧几里得结构(如图3所示)已成为GCN在视觉领域应用的主要挑战。图3(左)是我们常用的欧几里得数据，它具有规则的局部节点特征，而GCN需要节点之间的不规则拓扑特征作为输入来推断节点特征之间的关系，如图3(右)所示。如何将左欧几里得数据转换为右非欧几里得数据是GCN可视化应用中的一个重要挑战。2. 过拟合很容易发生。在不同的任务中使用GCN模型容易产生梯度消失、过平滑和过拟合问题。虽然GCN模型可以取得很好的建模效果，但由于梯度消失问题，GCN模型通常局限于非常浅的模型。图4给出了一个GCN应用示例(即在数据集Cora上进行节点分类[52])来验证层深度对准确率的影响。过度拟合削弱了小数据集的泛化能力，而由于网络深度的增加导致的过度平滑将输出表征与输入特征分离，阻碍了模型的训练，降低了模型的精度。
为了解决第一个问题，随着深度学习技术的发展，人们提出了许多从欧几里德空间数据构造图的方法。对图的不同构造方法进行了分类表1中。在接下来的章节中，我们将根据具体的可视化任务详细讨论它们。
针对第二个挑战，Yu等人[61]提出了一种DropEdge技术来缓解过平滑和过拟合问题。该技术的核心是在每个训练周期从输入图中随机去除一定数量的边，就像数据增强器和消息传递减速器一样。结果表明，DropEdge既降低了过平滑的收敛速度，又使过平滑带来的信息损失最小化。此外，最新的研究[62]提出了一种变体GCN Q。GCN Q包含两种简单有效的技术:初始残差和恒等映射，显著缓解了过度平滑问题。为了解决深度GCN的梯度消失问题，Li等[63]将残差连接、密集连接和展开卷积嵌入到GCN架构中，成功构建了56层的深度GCN，并在点云语义分割任务中取得了显著的效果。
三、基本视觉任务中的图形构建
由于GCN在欧几里德空间数据中的应用所面临的挑战，GCN在计算机视觉领域的应用有一定的局限性。这些限制导致GCN的应用主要集中在小样本学习、零样本学习、点云建模和场景图。随着GCN技术的发展，GCN在视觉领域遇到的欧几里得空间数据的相关挑战得到了解决。GCN可以用来处理更多的视觉任务。通过参考现有GCN在基础视觉领域的相关工作(如表2所示)，我们将对GCN在图像识别、目标检测、语义分割、实例分割和目标跟踪五个基本任务中的应用进行全面深入的总结。为了将GCN应用到视觉任务中，首先需要将图像数据构造成图形，然后将欧几里德空间数据转换为非欧几里德空间数据。然后，通过GCN描述数据关系或更新节点特征信息，完成可视化任务。
3.1图像识别中图像或视频数据到图形结构的转换
在现有的基于GCN的图像识别中，主要使用概率和 区域关注 方法来实现图像的图形构造。
基于概率法的图构建:图的数学表示为:G=（V, E)，其中V表示节点，E表示节点间的边。在基于概率方法的图构建中，一般采用词嵌入的方法将标签作为图节点，然后采用概率统计的方法计算节点之间的关联矩阵。词嵌入是一种基于神经网络的分布式表示，也称为词向量。词嵌入的核心是上下文表示和上下文与目标词之间的关系建模。词嵌入方法大致可分为基于词频的词嵌入和基于预测的词嵌入。目前比较流行的基于词频的嵌入方法有计数向量、词频逆文档频率(TF IDF)向量和共现向量。然而，基于预测的嵌入方法-word2vec在实际应用中是常用且有效的。word2vec是Continuous bag of words和跳格算法模型(CBOW)。关于词嵌入，Shi等[85]为了吸引读者的兴趣，做了详细的介绍。
在基于概率的图构造方法中，通过概率统计计算节点间的相关矩阵。为了构建相关矩阵，首先计算训练数据的标签共现可能性，得到相关矩阵…,然后，根据标签共现矩阵计算条件概率矩阵:…, 计算得到的概率矩阵就是所构造图的相关矩阵，在此基础上推导出后续对概率矩阵的改进。
基于区域注意的图构建:在图像识别中，基于区域注意的图构建步骤如下:将输入的特征图转换为固定大小的输出图，然后通过空间变换(Spatial Transformer, ST)[86]或语义注意模块(Semantic attention Module, SAM)[54]等转换模块将特征图X0转换为相应的注意区域图。最后以区域关注内容为节点V建立相应的图结构，如图5所示。
3.2在目标检测中将图像或视频数据转换为图形结构
在目标检测任务中，除了图像识别任务中提到的基于概率和区域关注的图构建方法外，该视觉任务还使用了基于超像素（超像素就是把一幅原本是像素级(pixel-level)的图，划分成区域级(district-level)的图。可以将其看做是对基本信息进行的抽象。）的图构建方法。
基于超像素的图构建:使用超像素分割算法将输入帧建模为一组超像素;然后是超像素水平时空图; 最后，通过测量节点间的欧氏距离生成原始图的边缘。图6a显示了每个节点根据超像素对之间的空间坐标距离在同一帧内或跨多帧连接到最近的邻居K。
每个超级像素的坐标是通过对同一超级像素中涉及的所有像素的坐标进行平均来计算的。通过直接测量欧几里得距离，得到同一帧的超像素的空间距离。为了计算属于不同帧的超级像素之间的空间坐标，则需要将超像素d的空间坐标从Ft帧映射到Ft+1帧，如图6b所示，由式(11)运算得到:…
3.3在语义分割中将图像或视频数据转换为图形结构
除了图像识别和目标检测中使用的图构建方法外，在语义分割任务中还使用图像像素作为图构建的节点。图像可以表示为图模型G(N, E)，其中N表示图节点，E表示图的边缘。节点构建如图7所示。节点之间的不相似度可以看作是图的边缘，边缘受图模型中相邻矩阵的影响。
此外，在语义分割任务中还有其他构建图的方法[45,71 - 73]。Landrieu等[71]将边缘特征作为节点对三维点云中物体部件之间的上下文关系进行编码。Qi等人在三维点云上构建了一个k近邻图[72]，图中的每个节点代表一组点，并与一个隐藏表示向量相关，该隐藏表示向量由CNN从二维图像中提取的一个外观特征初始化。et等[73]直接将点云中点的特征作为图上的信号。Michieli等[45]将被检测对象与被检测对象之间的关系建模为图的节点和图的边缘。通过上述构造图方法实现了GCN在语义分割任务中的应用。
3.4实例分割中将图像或视频数据转换为图形结构
在现有应用GCN实现实例分割的工作中，从图像或视频数据到图结构的转换方法主要有以下两大类:(1)将特征图上的每个像素作为图节点，通过特征相似度得到节点之间的邻接矩阵。特征相似度一般由Eq.(12)求得。
(2)用N个控制点表示图像或视频中目标物体的形状，通过连接控制点形成初始图结构，将构造好的图结构输入到GCN中，预测图像或视频中目标物体的形状和位置。
3.5将图像或视频数据转换为目标跟踪中的图结构
参考文献[81]构建了一个用于目标跟踪的图。每帧特征图的每个网格为一个节点，节点特征之间的相似性为一条边;文献[82,83]将对象和检测作为节点，利用对象和检测之间的关系构造图边缘。文献[84]以目标特征为节点，计算视频中目标的外观亲和力和运动亲和力作为图边。在为目标跟踪任务构造图形后，图形网络在目标跟踪中发挥了重要作用，极大地提高了模型的性能。
四、GCN在基本视觉任务中的应用与性能
4.1 GCN在图像识别中的作用与性能
图像识别是计算机视觉领域最基本的任务。它在目标检测[88,89]、人体属性识别[90]、医学图像识别[91]和推荐系统[92,93]中发挥着至关重要的作用。CNN虽然在图像识别方面取得了不错的效果，但是在对标签进行建模时忽略了图像标签之间的空间和语义关系。为了更好地建模图像标签之间的关系，将GCN引入到图像识别任务中。GCN在图像识别任务中起两个主要作用:(1)分类器和(2)传播和更新图像信息。
4.2 GCN在目标检测中的作用和性能
由于深度学习的快速发展，在目标检测方面取得了很大的突破。为了进一步提高目标检测性能，将GCN引入到目标检测中。目前，利用GCN进行目标检测的研究较少。目前GCN在这方面的应用主要分为二维、三维和显著目标检测。由于现有使用GCN的突出目标检测研究很少，我们只详细介绍了GCN在二维和三维目标检测中的应用。
4.2.1二维目标检测
在现有的二维目标检测工作中，GCN主要用于对单幅图像中的场景上下文信息和目标关系进行建模(如图10a所示)，或者用于融合输入图像特征(如图10b所示)，以提高目标检测性能。

4.2.2三维目标检测
GCN在三维目标检测中的应用是对点云数据的处理和建模。点云可以看作是一个无向图。GCN用于保持点云的空间关系，提取点云的局部区域信息。

4.3 GCN在语义分割中的作用与性能
无论3D点云数据还是图像网格数据，GCN在语义分割中主要用于传播图特征表示和类别分类。
4.3.1图的传播特征表示
GCN的核心是图卷积。在顶点域中定义一个有意义的平移算子，文献[73]首先在谱域对图信号进行滤波，然后采用切比雪夫近似来降低计算复杂度。根据图信号的频谱滤波，图信号x到gh的频谱滤波如下:…
4.3.2使用GCN进行类别分类
在图像语义分割中，使用GCN对图模型节点进行分类。语义分割可以看作是一个节点分类问题，如图12所示。在图12中，首先对已建立的图在GCN中传播和更新节点特征。更新后的特性可以表示为:

4.4 GCN在实例分割中的作用和性能
GCN在实例分割任务中主要用于细化目标轮廓和预测网格的顶点位置。在实例分割任务中，目标轮廓的细化和网格顶点的预测是非常重要的步骤。然而，在实例分割任务中，无论是使用GCN来细化目标轮廓还是预测网格顶点，其本质都是更新节点特征。GCN将构造好的图作为输入。
4.5 GCN在目标跟踪中的作用和性能
在目标跟踪任务中引入GCN，在一定程度上提高了目标跟踪性能。现有的基于GCN的目标跟踪方法，利用GCN更新图的节点和边缘信息，推断对象之间的关系。
4.5.1更新图节点和边信息
一般GCN在目标跟踪中以边权值和节点特征作为输入，通过图中的矩阵乘法更新特征。
4.5.2推断对象之间的关系
图网络通常由节点、边和全局变量组成。节点、边和全局变量的迭代更新是一个推理过程。
最后，根据更新后的节点、边和全局变量来推断对象之间的关系。现有的目标跟踪研究包括在线、近在线和离线三种方法。将基于GCN的目标跟踪方法与传统方法进行了比较。在公共数据集MOT17上的对比结果如表7所示。由表7可以看出，离线方法的准确率最高。无论离线方法、近在线方法还是在线方法，基于GCN的目标跟踪模型都比传统的目标跟踪方法表现出更好的性能。
五、挑战与未来机遇
虽然GCN在计算机视觉中的应用在学术界和工业界都取得了成果，但GCN需要CNN作为基本框架来实现图像和视频数据的建模，这在一定程度上增加了视觉任务模型的规模，提高了模型的计算复杂度，增加了模型的训练时间。此外，目前的方法只是在浅层压缩模型，试图降低模型的模型尺度。理论上，对这一问题的研究需要研究界的大力努力，并可能需要进一步的突破。在可视化任务中，GCN的良好性能很大程度上取决于数据的图构造。因此，通过引入GCN来提高模型性能，与欧几里得空间数据构建的图结构有着显著而直接的关系。然而，到目前为止，还没有一个通用的图构建范式，可以根据具体的任务为原始欧几里德空间数据构建最相关的图。同时，对于最终构建的图的可行性评价也没有统一的标准。为了达到满意的效果，需要对具体任务进行仔细的分析和多次培训，这很耗时。因此，通过广泛的研究，迫切需要为欧几里得空间数据准确地构建最匹配的图结构。除了上述问题外，模型可解释性严重限制了GCN在计算机视觉领域的应用。为了在视觉任务中成功地实现基于gcn的方法，可解释性是一个重要而突出的环节。并对深度GCN的收敛性、过平滑性和过拟合性进行了数学分析。因此，目前GCN在计算机视觉领域的应用主要是基于深度学习中积累的经验。随着深度学习和人工智能技术的发展，模型轻量化是一个必然的发展趋势。通过改进模型体系结构和优化算法，减小模型尺寸和模型的计算复杂度，从而高效、准确地完成视觉任务。因此，基于GCN的轻量级视觉任务处理模型是一个新的研究方向。有监督方法在处理视觉任务方面可以取得较好的性能，但在实际应用中，获取大量标记数据具有挑战性，并且容易遇到标记很少或没有标记的数据。许多未标记数据促进了半监督和无监督学习相关模型的发展。由于多模型融合在许多大型比赛(如Kaggle上的Otto产品分类挑战赛)中都取得了不错的成绩，因此探索GCN模型如何与半监督或无监督学习模型相结合，更好地实现视觉任务也是一个很有前景的研究方向。
六、总结与结论
图卷积网络(Graph convolution network, GCN)作为卷积网络的一种，已经成功地应用于许多领域。近年来，GCN在视觉任务中的应用越来越受到人们的关注。本文首先介绍和总结了GCN的工作机制，以及在视觉领域面临的挑战和解决策略。其次，根据不同的任务，总结了GCN在视觉领域的具体应用。然后，详细讨论了不同视觉任务下的图的构造方法。最后，深入分析了GCN在图像识别、目标检测、语义分割、实例分割和目标跟踪等方面的作用，并与常用的CNN方法进行了比较，突出了GCN在视觉任务中的性能。在本次综述的最后，我们提出了GCN在视觉领域遇到的挑战，并指出了GCN在视觉领域的未来发展方向。通过以上讨论，与传统的CNN方法相比，基于GCN的视觉任务处理方法从语义、空间和时间三个方面进行处理。

Applications of graph convolutional networks in computer vision图卷积在计算机视觉的应用

相关推荐

最近更新

热门阅读