声呐图像水下目标识别综述与展望

源自:电子与信息学报

作者:黄海宁, 李宝奇, 刘纪元, 刘正君, 韦琳哲, 赵爽

注:若出现无法显示完全的情况,可 V  搜索“人工智能技术与咨询”查看完整文章

摘 要

随着海洋资源开发和水下作业的增加,声呐图像水下目标识别已成为热门研究领域。该文全面回顾了该领域的现状和未来趋势。首先,强调了声呐图像水下目标识别的背景和重要性,指出水下环境复杂和样本稀缺增加了任务难度。其次,深入探讨了典型的成像声呐技术,包括前视声呐、侧扫声呐、合成孔径声呐、多波束测深仪、干涉合成孔径声呐和前视三维声呐等。接下来,系统地审视了二维和三维声呐图像水下目标识别方法,比较了不同算法的优劣,还讨论了声呐图像序列的关联识别方法。最后,总结了当前领域的主要挑战,展望了未来研究方向,旨在促进水下声呐目标识别领域的发展。

关键词

声呐图像目标识别 / 深度学习 / 合成孔径声呐 / 前视三维声呐 / 目标识别

1.   引言

随着对水下探测的需求逐渐扩大,水下目标识别已经成为研究和应用领域中备受瞩目的课题。与陆地和空中图像相比,水下图像的采集更为具有挑战性,这主要是因为采集成本高昂和效率低[1]。另外,可供分析和研究的声呐数据通常存在数量不足和质量有限的情况,这进一步加大了水下目标探测与识别的复杂性。因此,这一领域的研究和技术发展仍然面临诸多挑战,需要不断地创新和改进,以满足不断增长的水下探测需求[2]。

长期以来,声呐图像目标识别研究主要集中在经典方法上[3]。然而,在过去的10年中,深度学习[4,5]在这一研究领域的应用不断增长。系统性地梳理声呐图像目标识别技术[6],对水下目标识别应用研究具有重要的指导意义。基于此,第2节介绍了典型成像声呐的工作原理和应用场景;第3节和第4节分别对二维成像声呐图像识别和三维成像声呐图像识别方法进行综述;第5节对声呐图像多帧跟踪进行归纳总结;第6节对声呐图像识别存在的问题进行总结和对新技术、新思想进行展望。

2.   成像声呐技术

随着声呐技术的不断发展,利用波束形成技术或单阵元的指向性,将测向和测距结合,可形成对水下环境的二维(三维)观测,即声呐成像技术。对于成像声呐而言,频率响应和多普勒效应等一维时间序列中的信息在成像过程中被利用,其信息解译则直接基于最终形成的声呐图像。常见的成像声呐有前视声呐(Forward Looking Sonar, FLS)、侧扫声呐(Side Scan Sonar, SSS)、合成孔径声呐(Synthetic Aperture Sonar, SAS)、干涉合成孔径声呐(Interferometric Synthetic Aperture Sonar, InSAS)、前视三维声呐(Forward Looking 3D Sonar, 3D-FLS)和下视三维合成孔径声呐(Downward Looking 3D Synthetic Aperture Sonar, 3D D-SAS)等;广义上也包括多波束测深仪(Multi Beam Echo Sounder, MBES)和浅地层剖面仪(Subbottom Profiler, SP)等。

2.1   二维声呐成像技术

声波的测距和测向可直接形成对场景后向散射的二维极坐标观测,即通常意义上的扇面扫描,成像原理如图1(a)所示。前视声呐是此类声成像技术的典型应用,在距离向(径向)利用窄脉冲测距,方位向(轴向)通过机械扫描、波束形成或声学透镜等技术进行测向,获得二维声图像,其效果如图1(c)所示。前视声呐成像速度快,一次脉冲发射即可形成一帧完整的扇面图像,不依赖于平台的运动;既可对静止目标成像,也可通过多次脉冲发射形成对运动目标的连续观测[7,8];缺点在于轴向为角度分辨率,分辨能力随距离增大显著降低。

图片

图 1  前视声呐

将声波测距和声呐平台的运动相结合,形成了一类侧扫成像技术,成像原理如图2(a)所示。声呐换能器加装在平台的左右舷,在垂直航迹的斜距方向上通过脉冲测距,依靠平台的运动实现扫描成像,成像效果如图2(c)所示。侧扫声呐具有分辨率高,双侧覆盖面积大的优点;但其成像依赖于平台的运动,无法在静止的平台上工作,主要对水下场景和静止的小目标进行成像探测。侧扫声呐和前视声呐均采用斜距成像体制,利用高频声波对海底表面成像,当声呐平台距海底一定高度时,斜距上的等间隔采样对应到海底为非均匀采样,导致在声呐图像中(特别是靠近声呐的一端)出现一定的几何畸变;此外,凸出海底的目标在斜距方向上会形成明显的阴影,是基于特征工程的目标识别中常用的重要特性[9]。

图片

图 2  侧扫声呐

侧扫声呐沿航向的角分辨率由波束宽度决定,受限于基阵的物理孔径;且同样存在线分辨率随距离增加而降低的问题。为此,引入合成孔径成像技术,利用沿直线运动的声基阵在不同时刻发射和接收的回波,进行相干处理,形成可变的虚拟大孔径,发展出一类合成孔径声呐,相比于侧扫声呐可实现更高的、不随探测距离降低的沿航向分辨率[10,11],成像原理如图3(a)所示。合成孔径声呐不受方位向窄波束限制,可工作在较低频段,为地层和掩埋物探测创造了条件。但合成孔径声呐图像中目标的阴影有一定程度的模糊,且存在类似于合成孔径雷达图像的相干斑(Speckle Noise),对目标识别有一定的影响,成像效果如图3(c)所示。

图片

图 3  合成孔径声呐

采用类似的思路,将换能器的波束指向平台正下方,采用参量阵技术实现低频窄波束,再借助低频声波在泥沙底质中的穿透作用,将观测对象从海底表面拓展到地层,形成了一类下视低频声成像技术,典型设备为浅地层剖面仪。

2.2   三维声呐成像技术

在二维声呐成像技术的基础上,对丢失维度设置额外的扫描环节,即可得到三维图像,成像原理如图4(a)所示。三维声呐成像技术可分为机械扫描、多波束电子扫描和面阵扫描等多种类型。多波束测深仪是最常见的三维成像声呐,发射和接收分别使用垂直和水平窄波束,通过对波束覆盖的重叠区域(即波束脚印)进行测距实现三维测量,成像效果如图4(c)所示。多波束测深仪在除测距方向的另外两个维度均为角分辨率,分辨能力较低,一般用于海深测量或大型目标的成像[12,13]。

图片

图 4  多波束测深仪

在合成孔径技术的基础上,利用声波的干涉作用,发展出可对场景表面进行三维重建的干涉合成孔径技术,成像原理如图5(a)所示。干涉合成孔径声呐采用平行双接收阵的布阵形式,通过对配准图像的干涉处理,在地面梯度连续性假设等条件下进行相位解缠,形成对海底高度的观测[14,15],成像效果如图5(c)所示。干涉合成孔径声呐的海底高度观测建立在高分辨合成孔径声图基础上,有着极高的分辨率,但相位解缠计算本质上不是一种真正的三维成像,而是在连续性假设下对三维坐标的估计。

图片

图 5  干涉合成孔径

对前视声呐进行改进,采用平面或曲面布阵,增加在俯仰方向上的孔径,可形成三维图像,成像原理如图6(a)所示。基于面阵的前视三维声呐保留了前视声呐的特点,通过单次脉冲发射即可一次性获得场景中水平、垂直和距离三个维度的信息,成像效果如图6(c)所示。与二维成像声呐相比,三维声呐兼具水平和垂直窄波束,具有很强的抗混响能力,更适合浑浊水和浅水等高混响环境下的探测;增加的垂直维度信息能在较大程度上提高无人系统的自主识别能力。前视三维声呐常用于水下机器人的导航、水下勘探、水下搜索和救援、海洋科学研究等领域[16,17]。

图片

图 6  前视三维声呐

下视三维合成孔径声呐,也被称作体积搜索声呐(Volumetric Search Sonar),则是在面阵架构的基础上,跨航向采用扇面扫描,沿航向应用合成孔径技术,得到更高分辨率的三维图像的技术,成像原理如图7(a)所示。由于合成孔径技术不追求沿航向的窄波束,一定程度上降低了对工作频率的限制,下视三维合成孔径声呐还可以结合一部分浅地层剖面声呐的特点,通过低频声波实现对地层的穿透,成像效果如图7(c)所示。

图片

图 7  下视三维合成孔径声呐

3.   二维声呐图像目标识别

二维成像声呐包括合成孔径声呐、侧扫声呐和前视声呐等,本节主要针对合成孔径声呐和侧扫声呐。二维声呐图像目标识别方法大致分为:传统识别方法和深度学习方法。

3.1   传统识别方法

传统二维成像声呐图像目标识别过程是先从声呐图像中提取感兴趣(Regions of Interest, ROI)目标‘切片’;接着,对‘切片’内目标做分割处理,然后,进一步提取分割图像的特征;最后,利用分类器对提取特征进行分类识别[18,19]。由于待识别目标多为金属结构,会产生较强的后向散射回波,在声图中呈现出高亮区域;同时因目标的遮挡无法接收到声波,在其后面形成阴影区域。通常声波照射导致了高亮与阴影共轭产生,且阴影投射的位置与目标的高亮及声呐的高度呈几何关系[20-23]。依据声呐采集原理和目标的先验知识,学者设计了一系列目标判定规则和模板,实现水下目标识别[23,24]。Dobeck等人[25]利用侧视成像几何和小目标特征先验知识设计了由高亮区、阴影区、前后背景区构成的目标模板,对大范围侧视声呐图像进行匹配滤波检测感兴趣区域。随后借助目标的高亮和阴影的强度、形状、尺寸设计特征,并利用最邻近(K-Nearest Neighbor, KNN)分类对ROI进行二次确认,实现真实SAS和SSS的似雷物(Mine-like objects, MLO)的判别。Lopera等人[26]先利用各向异性的扩散滤波方法抑制噪声和模糊的形态学方法分割高亮区和阴影区,再利用模糊形态学方法分割高亮和阴影区域,并结合面积、轮廓、外接椭圆等30多个特征,最后使用马尔可夫链蒙特卡罗(Markov Chain Monte Carlo, MCMC)算法,完成真实及仿真的SAS的MLO辨识。Williams[27]利用积分图统计方法对复杂背景疑似目标检测。在此基础上,Williams[28]提取了目标高亮和阴影的周围9个区域,基于目标形状和强度等特性设计特征和阈值,完成MLO辨识。Hurtós等人[29]提出了适用于前视声图级联的模型,模型的每一层(左下角、右上角、直段等)创建了模板,并使用模板匹配方法,实现前视声图的目标判别。上述方法大多是针对某一特定场景或条件设定规则和模板,当场景或条件发生变化时,目标检测及识别性能就会下降。

为了提升识别的稳定性和适应性,学者将反映目标的多种特征组合,再对特征组合进行优化和筛选。Barngrover[30]首先利用Haar类和尺度不变特征变换(Scale Invariant Feature Transform, SIFT)等局部特征表征声图,之后通过改进的Boosting进行特征筛选,强化弱分类器性能,完成对真实及半仿真的侧视声图MLO辨识。同时,也验证了组合特征筛选性能优于单独特征。在此基础上,Barngrover等人[31]将该方法和人类视觉的脑机接口(Brain Computer Interface, BCI)相结合,提升了目标识别的性能。同样,Galceran等人[32]和Ferreira等人[33]将Haar类特征提取方法应用到了前视声图小目标识别。而Chhabra等人[34]构建了一组正交基组成的字典表征声图,字典由离散余弦变换、Gabor变换、Haar变换和金字塔定向滤波器组等4类特征组成。之后,通过字典学习对特征进行筛选,并利用KNN完成MLO的分类。

除了特征组合,学者利用多频带、多视角和多模态等联合方法,提升水下目标识别性能。Ki等人[35]和Azimi-Sadjadi等人[36]提出了一种基于子空间的快速字典学习算法,实现多通道(高频和宽带) 侧视声图的MLO判别。该方法是将声图样本投影到目标和非目标两个不同子空间,并根据重建误差产生残差比来辨识目标。为了提高算法适应性,McKay等人[37]将贝叶斯判别与声图切片的字典学习方法相结合,以缓解多视角目标以及噪声、模糊和遮挡等对识别性能的影响。利用Spike-and-Slab模型作为贝叶斯先验,增强目标细微差别辨识能力;同时,将声图切片提取方法与字典学习相结合,以解决声图目标姿态多样性给稀疏分类带来问题。该方法对不同几何形状、瑞利噪声和背景杂波的目标进行分类,证明了其鲁棒性。为了适应海底复杂环境,Brandes等人[38]将多通道SAS图像、多检测器、多特征(Haar类、CCA等)及贝叶斯分类器集成联合起来,实现反水雷任务。

为了克服水下环境复杂和声图样本少的问题,学者通过对海底声图纹理的统计和分析,表征海底变化规律,实现对水下目标的检测。最初,根据声呐成像机理,利用高斯分布表示所有散射体反射信号的相干叠加。Acosta等人[39]假设海底混响服从高斯分布,利用平均恒虚警检测实现了沉船的检测。然而,随着声图像分辨率提升,高斯分布难以有效表征海底环境的统计特性。为此,一些非高斯分布,如韦布尔,Gamma, K[40]和α稳定-分布等用于水下目标检测。Abu等人[41]利用β分布表征海底纹理和目标高亮,而利用高斯分布表征目标阴影的统计特性。同时,结合声图目标高亮和阴影统计的似然比检验方法,实现对MLO判断。

3.2   深度学习方法

从深度学习的角度考虑二维声呐图像目标识别,通常可以分解成两个子任务:分类识别和目标检测。分类识别是将ROI分配到预定义的类中;目标检测将对象的定位、分类和范围估计整合到一个步骤中。

(1) 分类识别:Williams等人[42]利用卷积神经网络对SAS图像目标进行分类识别,提高了水下目标的分类准确率,同时证明了即使只有4层的小型CNN也优于传统方法。然而,声呐图像深度学习分类识别方法面临的核心问题是有标注的目标样本少,如果没有足够的训练样本支撑模型的复杂性,模型将会过拟合。针对这一问题,当前声呐图像的深度学习分类识别方法主要是通过迁移学习、小样本学习和图像生成来解决。

迁移学习是利用仿真声图或光学图像来训练模型,并通过模型的微调,实现真实声图的目标识别。McKay等人[43]为了缓解声图样本少问题,采取了3种方法:首先,对卷积神经网络进行预训练;其次,利用声图仿真的方法模拟声图来训练模型;最后,利用迁移学习,实现真实声图MLO识别。并且,对比了VGG-16,VGG-19和AlexNet等模型的特征提取能力,其中VGG-19和AlexNet性能最佳。为了避免过拟合的问题,朱可卿等人[44]利用仿真声图的分割结果训练改进的AlexNet模型,并保留其特征提取部分。之后,利用少量的真实声图微调模型,并结合SVM对真实声图进行MLO辨识。Cheng 等人[45]采用侧视声图对VGG19进行预训练,然后使用具有通道和空间注意力模块优化网络,最后通过模型微调,实现目标识别。Xu等人[46]提出一种基于参数迁移学习和深度学习的声呐图像分类方法,主要工作是结合迁移学习,并对VGG16进行优化,实现在小样本情况下提高声呐图像分类精度的目的。

小样本学习与迁移学习类似,如何利用已有的训练模型,通过学习或调整,在数据量匮乏的情况下提升神经网络模型的性能。Ochal等人[47]采用小样本学习方法,涉及的网络主要有原型网络、关系网络、软K-均值原型网络和一致原型网络,并与使用自定义CNN, ResNet-18和ResNet-50的迁移学习进行了比较,在合成的SSS数据集上验证,小样本学习方法略优于CNN。陈禹乐等人[48]针对声呐图像目标边缘模糊难以分割和提取以及声呐图像少的问题,提出一种数据标签平滑正则化的方法,有效抑制了小样本情况下声呐图像分类网络训练过拟合的现象。Xu等人[49]将声呐图像分类看作一个小样本问题,提出一种基于深度学习和域适应的深度自适应声呐图像分类模型。在模型中,特征提取模块提取图像的多尺度特征,注意模块学习不同渠道特征的重要性,域适配模块减少了源域和目标域之间的差异。

针对样本少的问题,最直接和有效的方法就是数据扩充,通常有2类方法,分别是:声呐图像仿真和声呐图像生成。声呐图像仿真是通过建立物理模型和借鉴计算机图形学技术来模拟声呐图像。Bell等人[50]系统性地阐述了侧视声图的建模仿真方法,涉及水下声传播建模、海底地形模拟、发射指向性及平台运动特性仿真等方面。在此基础上,Bell等人[51]在海底纹理、声呐建模等方面对仿真模型进行改进。Cerqueira 等人[52]提出了一种基于光栅化的前视声呐图像模拟器,通过使用 GPU 和预计算数据提高了图像生成的速度,同时保证了生成声呐图像的真实性。并且,将光线追踪和光栅化技术相结合,同时将声压衰减和多径传播的影响引入模型,进一步提高了模拟声图的真实性[53]。当生成对抗网络(Generative Adversarial Network, GAN)出现后,利用原始的对抗网络,通过声图生成得到更加逼真的声图。李响[54]和李宝奇等人[55]将光学图像作为引导图像,利用改进的CycleGAN网络成功实现了高质量声呐图像的生成。胡宇翔等人[56]利用GAN模型将声图全局特征融合到引导图像中,生成的真实图像与真实声呐图像更为接近。

为了提升识别的性能,一些学者结合声图目标的特性,对传统深度卷积模型进行改进和优化。Du等人[57]针对声呐图像分辨率低、细节少导致特征提取不理想的问题,结合集成学习提出一种基于改进EfficientDet的声呐图像目标识别方法。同时,根据区域优势原则和阈值分割方法对声呐图像进行预处理,使水下目标识别的精度优于传统卷积神经网络。Lei等人[58]不满足只考虑图像局部特征对声呐图像进行处理的方法,提出了一种基于改进的图注意力机制网络的分类方法。该方法通过联合计算声呐图像特征在非欧氏空间中的颜色接近度、空间接近度来量化节点间的相关关系,利用KNN算法构建其关键模块,实验验证所提方法优于基于欧氏空间的卷积神经网络。Ruan等人[59]针对声呐图像对比度低、边缘模糊、纹理差、质量不理想等导致分类效果差的问题,提出了一种双路径深度残差“收缩”网络模型,通过侧扫声呐图像验证,该模型比其他模型具有更高的分类精度和效率。

(2) 目标检测:在传统水下目标识别领域,检测的概念多用于描述图像中是否存在目标,常作为分类识别的前置环节,用于定位目标的ROI,而深度学习的目标检测以包围框的形式直接输出物体的位置和类型。汤寓麟等人[60]针对侧扫声呐图像的沉船目标检测,结合DETR,引入通道注意力机制,在YOLO模型中加入多尺度特征融合模块,提出DETR-YOLO沉船检测算法,实验验证了DETR算法只需要少量锚框即可完成水下目标检测任务。Steiniger等人[61]对YOLOv2、YOLOv3进行了比较,在实验中YOLOv3表现出了更佳的性能。Yu等人[62]首先研究了声呐图像中目标检测背景下的自注意力机制。在YOLOv5s上添加一个多头注意力机制模块,可以在几乎没有增加计算开销的情况下提高检测性能。李宝奇等人[63]针对轻量化目标检测模型SSD-MV3因输入图像尺寸限制无法直接检测高分辨率大尺寸SAS图像中感兴趣小目标的问题,提出了一种高分辨大尺寸SAS图像感兴趣小目标检测的方法,该方法采用冗余切割算法将原始SAS图像切割成适合目标检测模型输入的小尺寸图像,再利用轻量化目标检测模型对切割后的图像逐个检测,最后选用最大值抑制算法对检测结果进行确认,从而实现高分辨大尺寸SAS图像感兴趣小目标检测识别。Yang等人[64]针对声呐图像存在噪声大、高频信息不足的问题,分别提出了前景语义增强和前景边缘增强两个模块。前景语义增强将语义图与各个特征层相关联,增加前景与背景的距离,突出目标信息;前景边缘增强结合RNN网络,通过不同方向的空间语义信息增强边缘,改善前景对象的特征表示。Tang等人[65]针对SSS声呐图像多个目标密集排列、重叠导致误检率和漏检率较高的问题,提出了一种基于混合扩张卷积和金字塔分割注意力混合算法的侧扫声呐水下目标识别模型,能够改善密集和重叠目标的识别任务。Er等人[66]认为水下目标检测最重要的是保证实时性要求,而无锚检测器对于实时目标检测更有优势,因为无锚点检测技术无需非极大值抑制,消除了锚点带来的计算负荷,并通过卷积网络直接回归对象的类别和位置,从而实现了更高的实时效率。李宝奇等人[67]针对复杂场景下SAS图像多尺度目标存在检测精度低的问题,提出了改进的目标检测模型SAS-Cascade-RCNN, SAS-Cascade-RCNN通过在标准特征提取模块中引入SGE (Spatial Group-wise Enhance)组件和SIM (A Simple, Parameter-Free Attention Module)组件提高了目标检测的精度。

3.3   小结

二维声呐图像的传统机器学习和深度学习的方法比较如表1所示。传统的水下目标检测和识别方法,在小样本或无样本情况下,为水下目标识别提出了解决思路。然而,传统的机器学习方法受限于声图数据的处理能力,并且需要对声图数据进行专业和深入的理解,才能设计合适的特征表示方法。相对于传统的机器学习,深度学习不需要手动提取或手工制作特征,通过数据驱动构建对水下环境及水下目标的认知,适用于人类对环境认知较匮乏的水下探测领域。在二维声呐图像水下目标识别工作中,研究方法从传统特征提取向深度学习过渡;研究对象从水下小目标扩展到多尺度目标;研究场景从平坦海底向复杂地貌转变。当前,研究人员通过设计更可靠的水下目标特征、生成高质量的样本数据以及采用更先进的网络结构来改善二维声呐图像水下目标识别的精度。事实上,在复杂的水下环境下,提取目标稳定特征绝非易事;而有限的样本量无法保证模型的泛化能力。因此,对于二维声呐图像水下目标识别任务而言,将目标确定性的特征引入到深度学习网络对提高目标识别的精度是有帮助的。

图片

表 1  二维声呐图像目标识别方法比较

4.   三维声呐图像目标识别

和二维图像相比,三维图像识别最大的差异在于如何处理增加的维度带来的信息量剧增的问题。在计算机视觉领域,按照数据表达形式划分,三维图像识别方法大致可以分成基于二维化图像、体素和点云三类基本方法,不同数据形式的适用场景和处理方法均存在显著的差异。

4.1   基于二维化处理的三维目标识别

从成像原理角度分析,一些工作在较高频段的成像声呐不具备对地层或目标的穿透能力,图像中大部分能量来自场景和目标的表面散射。另外,大部分三维声呐在不同维度上采用不同的成像方式,如径向的脉冲压缩(匹配滤波)和轴向的波束形成。这导致的一个显著特点是,其产生的三维声图像在某一个或两个维度上的分辨能力远高于其他维度,使得大多数信息可以被某种角度的投影或切片图像所保留。在这种前提条件下,考虑到较强的通用性和计算机视觉方法迁移的便利性,二维化方法在三维声呐图像问题中受到了最广泛的关注,采用的具体手段从经典模型到深度神经网络均有涉及。

和二维声呐图像识别的经典模型相似,三维目标识别问题同样可被解构为特征工程和分类器两个主要环节。基于二维化处理的三维声图识别方法和一般侧扫、前视声呐等二维声图识别并无本质区别,主要差异体现在预处理和二维化方法上。Tang等人[68]和Kong等人[69]针对下视多波束声呐获取的三维图像,在侧视图角度进行投影,获得类似于浅地层剖面的多组图像切片;然后利用经典的OTSU方法进行图像分割,分离水体和地层,分别进行二值化处理、边缘检测和基于贝叶斯和最近邻方法的分类,完成目标识别。Guerneve等人[70]提出了一种利用拼接后的大范围多波束测深高程图进行地标检测的方法,用于建图和水下导航;首先对存在先验的水下地标结构进行CAD建模及仿真成像,再提取多尺度直方图特征,最终通过K-近邻模板匹配实现导航。李志华等人[71]、钱威昆[72]在各自独立的研究中,针对不同类型的三维声呐,在二维切片目标识别的基础上,融合了目标跟踪方法,通过多帧图像进行质心坐标映射和运动距离估计,利用帧间相关性特征、面积变化率、重叠率和基于 Hu 不变矩的帧间特征等进行目标特征描述,最终采用SVM进行分类识别,实现了对开式蛙人的气泡等运动目标的识别和跟踪。

随着深度学习研究的不断深入和硬件算力的提升,深度学习模型因其自动特征设计和强大的非线性拟合能力受到了越来越多的关注。在经典框架的基础上,将其中一个或多个环节用深度神经网络代替,形成了一类三维目标识别的新思路。Jin等人[73]提出了一种将经典方法和深度学习相结合的解决方案:首先通过基于图的流形排序算法(Graph-based Manifold Ranking, GBMR)进行显著性检测,然后将检测到的显著区域送入分类网络EchoNet实现识别。模型的训练采用迁移学习方法,先在ImageNet上预训练,再在Code Echoscope的投影图数据集上进行全连接层调优,最终达到了97.3%的识别率。Xiong等人[74]提出了一套对水下输油管线设施状态进行巡检的解决方案:该框架由单帧目标检测、区域生长和多帧关联、基于ROV运动数据的位置估计和图像地理映射3个主要环节组成,其中目标检测部分采用YOLOv5方法。黎宏涛[75]对多波束测深数据进行二维切片化处理,采用U-Net方法在图像中进行目标检测和语义分割;在此基础上进行三维重建,在多视角图像中构造完整的落水集装箱三维模型,评估其半掩埋状态、损伤和精确位置。此类方法在如干涉合成孔径、前视三维声呐、坐底警戒声呐等对表面成像的高分辨声呐中有较好的应用效果,但对空间关联的忽视则使其监测性能存在不同程度的缺陷。一些研究团队着眼于这一问题开展了改进研究。李宝奇等人[76]针对基于手持式前视三维成像声呐的轨条砦目标的检测问题进行了探索;在二维化阶段,进行深度图和强度图的双通道二维投影处理,再通过单步目标检测网络(Single-shot Detector, SSD)方法完成目标检测。该文献利用深度图对物体间的空间关联特性进行描述,提高了目标检测的正确率;同时探讨了通过轻量化网络设计进行实时处理的工程实践解决方案。更进一步的,Hoang等人[77]以深度学习为基础,采用了一种较为独特的思路,针对一型海底搜索声呐(Sediment Volume Search Sonar, SVSS),一种采用合成孔径技术的下视低频声呐)图像中的未爆弹药(Unexploded Ordance, UXO)检测和识别问题,设计了一种类似于对医学CT图像解译的处理架构。该文献首先构造了由多个并列的二维卷积网络和一个联合决策器组成的E-2DNet架构,将单帧三维声图的全部切片送入并列的二维卷积网络;然后,研究团队基于语音信号处理中常用的长短时记忆递归神经网络(Long Short Term Memory, LSTM)结构设计了双方向卷积LSTM(Bidirectional Convolutional LSTM, BCLSTM),作为切片间关联识别模块,嵌入二维卷积分类网络和联合分类器之间,增强对切片间位置关联信息的利用,最终达到98.6%的识别正确率。

基于二维化处理的三维声呐图像识别方法与传统二维声呐图像识别有着相似的应用条件,具备更加可控的参数规模和训练成本,同时也有着较为稳健的检测和识别性能。其中需要解决的关键问题主要包括:(1)针对不同的声呐类型和应用场景选择合适的投影或切片方法;(2)改善二维化造成的信息损失,解决空间关联信息的丢失问题。

4.2   基于体素的目标识别

基于体素的三维数据表示方法可以视作对二维图像的简单推广,成像结果以三维空间内均匀采样的形式呈现。类似于二维图像中像素(Pixel)的概念,每一个三维采样点被称为体素(Voxel, Volumetric-pixel)。在此基础上,二维图像处理方法被简单推广到三维,例如二维的直线参数方程近似方法推广到三维坐标下,二维卷积操作直接扩展到三维。Henley等人[78]对多波束测深数据进行了体素化处理,然后借鉴MRI等医学影像处理中的3D-VNet方法,用三维卷积核替代了传统V-Net中的二维卷积核,在小样本集条件下进行了模型裁剪,最终实现对大尺度目标的语义分割。研究团队在1450幅图像构成的样本集上开展验证实验,并对比了3D-VNet和直接输入二维高程图像的2D-VNet的识别率,认为基于体素的3D-VNet方法(93.4%)相比于二维方法(82.2%)有明显提升。Williams等人[79]针对文献[78]中相同的下视低频三维声呐图像,设计了8种不同结构的、深度从2到12层不等的神经网络模型,以体素的形式将三维声图直接送入模型进行端对端训练,获得了在ROC曲线和AUC值等指标上均明显强于传统方法的检测性能。

基于体素的方法在光学图像(尤其是医学图像)中受到了相当程度的关注,但在声呐目标识别领域的相关应用和文献较少。这类方法对三维空间进行了更完整的表达,但计算量较大;在特定的应用场景下有着不俗的表现。综合考虑,该类方法具备如下特点:(1)计算量随采样密度剧烈上升,在高分辨声呐中存在应用难度,一般而言更适用于空间采样稀疏的实孔径二维扫描体制的成像声呐;(2)在具备穿透作用的低频声学成像设备中更能发挥其应用价值,在表面成像类型的声呐中计算量冗余偏大;(3)针对相对尺度较大的目标(如医学影像中的器官,或水下图像中的沉船、礁石等大型结构);(4)多采用深度学习方法,寻求对大型目标的语义分割。

4.3   基于点云的目标识别

基于点云的方法在处理激光雷达等计算机视觉应用场景下被广泛采用。在不考虑透射作用的高频声呐中,声波对场景表面成像,视角内各个波束波达方向的测距结果就是一种典型的点云描述。这种语境下,图像不再被表达为二维或三维空间内等间隔采样的矩阵形式,而是以N*3(空间坐标)、N*4(空间坐标和后向散射强度)或N*5(空间坐标、后向散射强度和相位)的向量数组形式呈现。如何处理点云数组的无序性,实现旋转和平移不变,同时充分利用点间特征,是点云识别方法中的关键问题。借助点云的欧式空间坐标,计算机视觉的研究者们构造了一类基于聚类算法的物体分割和检测方法。许多基于经典方法的声图点云识别的也是由此入手。马鑫程等人[80]探究了利用悬挂式三维扫描声呐探测水下沉井地形的问题,给出由降采样点云抽稀法、基于欧氏距离的区域自生长算法的点云去噪方法和基于 K-means++聚类算法的地形分割方法等组成的水下地形点云处理方法,实现了沉井目标提取、定位及水下地形恢复。

随着深度学习研究的深入和深度网络模型的介入,点云分割和物体检测问题在大数据驱动下得到了更好的解决,基于点云的深度学习方法在三维重建及自动驾驶等领域被广泛采用。在水声图像处理中,考虑到直接使用二维前视数据直接识别效果不佳,Sung等人[81]提出了一种新颖的目标识别结构:首先采用多帧数据进行全场景三维重建,再在三维点云数据中应用PointNet进行目标识别。该方法利用ModelNet10/40模型集生成了大量仿真声图数据用于训练,在真实数据(井架场景)中验证,实现了92.3%的检测率和90.0%的召回率。同时该文献指出,用于比对的基于二维图像的网络模型无法适应上述迁移学习场景。Sadjoli等人[82]研究了融合两个成像平面相互垂直的二维前视声呐图像进行三维重建的技术(Orthogonal Multibeam Sonar Fusion, OMSF),并将AUV的水下停靠作为一种典型的应用场景。整个过程分为重建、识别、姿态估计3个步骤,其中在识别阶段,该文献以OMSF重建的三维点云为输入,采用基于多尺度分组(Multi-scale Grouping, MSG)的PointNet++实现对目标是否为AUV接驳装置的二分类检测;其训练采用迁移学习的方法:在ModelNet40上特征层预训练,再基于构造的二分类验证集上对全连接层进行调适,最终实现了基于多次观测的接驳装置识别。DeBortoli[83]研究了水下、地下等样本规模受限的复杂环境下深度学习感知问题,将对抗学习的形式引入点云目标识别网络,结合模拟数据和真实数据,获取普遍适用的深层特征。Tsai等人[84]采用了结合二维和三维联合检测的新思路,对坐底的机械扫描三维成像声呐(BV5000)数据进行处理。其中二维部分首先进行鸟瞰图(Bird’s Eye)投影处理,再通过计算机视觉中的目标检测网络模型YOLOv3和Faster R-CNN方法完成检测;三维部分采用点云分割网络PointNet实现物体检测,联合检测结果将用于目标的精确确认和空间定位。

不同于二维投影,场景的点云表达保留了大量空间位置关联信息,更贴合三维数据的真实情况;而相比于体素方法,基于点云的识别方法又能够充分利用的三维声呐图像在波束空间内的稀疏性,降低计算规模。总体上,基于点云的三维声图识别方法更容易达到检测性能和计算成本之间的平衡。

4.4   小结

表2给出了三维声呐图像目标识别方法比较。借助激光雷达等传感器解决方案的成熟和相对完善的三维数据集,三维物体分割和检测技术在机器人及自动驾驶等领域已经得到了广泛的应用,形成了体系化的研究框架。然而,与激光雷达相比,三维成像声呐还不够成熟,使得三维声图像的识别研究尚处在初级阶段,总体呈现孤立化、碎片化的态势,没有形成具备足够继承性和延续性的脉络;同时,由于不同体制的三维声呐差异明显,目标的形态各不相同,因此识别是作为独立的研究目标,或以面向应用的成套解决方案中的一个环节的形式出现的。目前,大部分三维声呐水下目标识别研究采用了二维化处理的方法,少部分涉及基于体素或点云的全三维处理。

图片

表 2  三维声呐图像目标识别方法比较

5.   声呐图像序列关联识别

声呐图像序列通过联合多帧图像信息有助于在时间和空间上形成一致的信息关联,利用其进行稳健、高效的序贯检测或跟踪处理对提高运动目标的识别探测能力极为重要。然而,受到海洋波导的扰动,对水下微弱目标的检测和识别仍存在很大挑战。在联合多帧图像进行信息提取的过程中,可以通过抑制连续稳定背景或捕捉动态变化前景的方式,将提纯后的图像信息提供给分类器。其中,前者通过对相邻帧图像进行对比来消除图像中的固定背景,而后者则更多关注目标本身,通过对不同时刻的目标检测结果持续进行跟踪关联,维持分类特征的一致性。

声呐图像序列的背景抑制研究很大程度上借鉴了视频处理领域的连续帧间检测技术,其典型方法包括帧间差分法、高斯混合模型方法以及光流法[85–87]。崔杰等人[88]利用帧间差分法对相邻帧前视声呐图像进行差分运算实现了对图像的背景相减,并且当运动物体因为位置改变在两帧图像上产生的像素强度差值时,可以将目标的轮廓显示出来。范威等人[89]通过高斯混合模型建立声呐图像灰度的概率密度分布,将目标区域和背景区域的灰度差异通过多个峰值分布进行刻画,有效提取出图像背景。Lane等人[90]基于光流概念提出了水下运动目标的相邻帧间动态信息提取方法,通过在时间域上建立像素强度的变化特性与相关性,有效表征了目标的瞬时状态变化。然而,在实际的声呐图像中,由于散射体返回的声波经过海底海面多次反射会在图像上呈现出类似目标的“闪烁”特性,导致背景抑制后仍然存在许多疑似目标亮点。因此,近年来研究者更多地通过跟踪滤波方法估计目标的实际运动状态,以此作为水下目标分类识别的关键信息。

Demarco等人[91]针对前视声呐的蛙人探测任务首先提出一种根据图像序列快速估计目标速度的方法,通过计算每帧目标检测点位置变化的递归平均值,将恒定速度大于某个阈值的运动蛙人与其他物体和噪声区分开。但这必须假设目标是图像中唯一运动的物体,为此,他们改进提出训练隐马尔可夫模型(Hidden Markov Models, HMM)刻画物体的状态转移过程,通过该模型匹配目标的观测序列,实现了更稳健的目标识别。实验显示该算法对近乎匀速运动的目标表现良好,但是当目标停止运动或减速时,HMM模型未能适应此时引起的过程噪声。并且,轨迹的分类判别是在后处理过程中进行的,无法对水下威胁目标进行实时预警。

由于声呐设备的测量误差和物体状态的不稳定性均会影响目标识别的准确度,Karoui等人[92]规定了声呐图像上量测输入值的不确定性,并且在进一步的状态估计中,采用卡尔曼滤波器修正了过程噪声协方差矩阵的非线性偏差,有效地在实测数据集上取得了令人满意的结果,区分了静止浮标以及有无尾流的行船。然而,目标轨迹的可区分性是以高检测概率为前提的,在浅海等虚警率高的环境,当量测来源不确定时,目标轨迹会被错误跟踪或是产生多个轨迹碎片。

近年来,一类称之为数据关联的观测序列匹配技术通过提升轨迹形成的一致性为改善目标识别性能提供了一种更可靠的方式。尽管数据关联技术在雷达、红外探测等多个领域已经发展得十分成熟,但是文献可查的对蛙人、UUV等水下弱小目标的分析和应用却相当少。现有的针对声呐图像序列的数据关联主要遵循两种逻辑,一种是基于单帧扫描的前后两帧图像的“顺序关联”,另一种需要累积多帧扫描进行“延迟关联”[93–97]。在单帧扫描方面,Rødningsby等人[98]采用概率数据关联(Joint Probabilistic Data Association, JPDA)方法跟踪了佩戴开式呼吸系统的合作蛙人目标。该方法不仅计算了每个新的时间周期内单个量测在概率意义上起源于目标的可能性,同时考虑了蛙人呼吸气泡的尾随效应,对常规JPDA扩展了含有气泡量测的概率模型。而对于多帧扫描来说,Coraluppi等人[99]提出利用多假设跟踪(Multiple Hypothesis Tracking, MHT)方法解决严重杂波场景下的跟踪关联问题,其通过设置足够深的关联深度,对当前匹配关系模糊的轨迹推迟关联决策,实现了对水下目标的连续跟踪。然而为了简单起见,大多数范例采用的是伯努利度量模型,即目标有可能不会被检测到,但如果它们被检测到,则每个目标只产生单独的一个量测。而对多个目标合并测量以及对单个目标重复测量的跟踪识别问题,文献[100]报道了这方面的最新进展。

以特征协助的联合跟踪识别技术为处理数据关联歧义问题提供了一种新方式,它可以将来自检测的附加特征信息与典型的运动学关联相结合,通过改善轨迹“纯度”提升目标识别精度。在假设目标的信号峰值优于背景噪声的情况下,一些典型的声学特征量,如信噪比、幅度和多普勒[101–103],被用于协助跟踪水下运动目标。而后,Demarco等人[104]提出结合具有明显标签化的目标属性,例如蛙人的四肢结构,提升了对假轨迹的抑制能力。此外,Wu等人[105]提出通过在数据关联之前增加对图像像素的预分类,验证了所提方法能适用于空中无人机和水下无人航行器两种应用场景的自动检测跟踪需求。

声呐图像序列的关联识别方法的优缺点如表3所示。与单帧图像的检测识别相比,通过多帧图像信息累积更容易捕捉到目标的动态特性,具有两方面优势:(1)可以利用运动目标在时间或空间上具有的连续性,增加目标与背景的区分能力;(2)可以根据联想和预测物体的实时状态变化,在状态空间上对不同动态表现的目标进行分类识别。相比之下,有/无特征辅助的数据关联方法可以获得更优的全局假设结果,但是随着待处理的目标数目逐渐增多,以及真实场景下干扰更多,算法的计算复杂度会随着时间累积呈几何倍数增长。因此,对于水下高度复杂的识别跟踪场景,如何在密集虚警下达到处理精度与处理效率的平衡,是未来需要解决的重点问题。

图片

表 3  声呐图像序列关联目标识别方法比较   

6.   思考与展望

声呐图像目标识别有着巨大的发展前景,受到越来越多研究者的关注。近年来随着深度学习技术的发展,该领域取得了一定的突破,但仍存在一些问题,总结如下:

(1)小样本问题:水下声呐系统需要特殊的装备和船只,以及高度专业化的技术人员,这使得数据采集变得昂贵和耗时。此外,一些水下声呐应用,由于涉及敏感信息和国家安全,数据采集过程受到了限制,使得公开的数据集相对较少。这一挑战对于深度学习模型的应用产生了直接的影响。深度学习模型通常需要大量的数据来进行训练,以获得高效的性能。在数据稀缺的情况下,模型的性能和泛化能力可能会受到严重限制。对此,可以通过扩充训练集,例如旋转、翻转、缩放等技术来生成更多样本,以增强模型的泛化能力。另外,还可以利用从相关领域或任务中学到的知识来加强目标识别模型。

(2)类不平衡问题:除了小样本问题外,声呐图像目标识别中存在类别不平衡问题。不同水下目标类别在数据集中的样本数量差异较大,这将导致模型倾向于对样本数较多的类别进行过度学习,而对样本数较少的类别学习不足,从而影响了模型的性能和泛化能力。对于样本较少的类别,可采用数据增强技术扩充样本数量,或者采用过采样(增加少数类别样本)或欠采样(减少多数类别样本)等重采样方法来平衡不同类别的样本分布。还可以通过赋予不同类别样本不同的权重,在损失函数中为少数类别赋予更高的权重,以强调模型对少数类别的学习。使用集成学习方法,如Bagging, Boosting或集成多个模型,能够综合各个模型的结果,更好地处理类别不平衡问题。

(3)目标特征弱问题:相比于光学图像,声呐图像通常分辨率不足,部分成像声呐分辨率随距离下降明显,难以在安全距离下形成对目标的有效识别;且易受到复杂多变的水下环境和不稳定的平台运动状态的影响,信噪比较低,成像质量不稳定,虚警较高。这些因素对目标的识别和定位产生一定的挑战。水下目标识别问题往往与声呐设计和成像过程存在强耦合关系。声呐系统的分辨率和成像质量与信号设计、换能器、布阵、信号处理算法等因素有关。例如,较高的声波频率可以提供更高的角度分辨率(波束开角小)和带宽资源,但也会造成传播损失的增加和作用距离的降低;换能器的灵敏度、噪声,声呐的布阵设计,诸如合成孔径运动补偿算法、阴影增强算法、高分辨波束形成方法等信号处理算法的应用在提高成像质量和分辨率方面同样扮演着关键的角色;图像处理和图像增强方法的引入对于改善目标识别也有着潜在的价值。开展面向目标识别的声呐设计,平衡作用距离和分辨能力、计算资源和算法性能等因素,对提高目标识别的能力有着重要的意义。

(4)目标多样化问题:目标的多样性是水下探测和识别领域的核心挑战之一。不同类型的水下目标,如水雷、基阵、预置系统等,其形状、材质、尺寸均会对声学特征产生影响,而同一目标在不同时空条件下的成像结果同样存在差异,这使得它们在水下环境中的准确识别变得复杂。例如具有不同材质和腔体尺寸的目标在不同频率的声波照射下散射特征存在较大的差异,圆柱或线缆类具有各向异性散射特征的目标在不同视角下的观测各不相同,目标与海底的相对位置关系(漂浮、悬浮、沉底、掩埋)对目标属性的判决有决定性的影响,国防应用中的存在对非合作目标的探测和识别需求,其形态先验知识稀少。为了应对这一多样性,需要开发先进的多样性识别算法,这些算法通常结合了声学信号处理、特征提取和机器学习技术。这些算法可以通过分析水下目标的声学反馈特征,包括回声、频谱、波形等,来识别目标类型。

(5)目标识别可解释性差问题:声呐图像目标识别系统已经取得了显著进展。然而,随着深度学习技术的普及,机器学习模型的复杂性增加,这使得模型的决策过程变得越发难以解释。解释性机器学习和深度学习方法的目标是使得模型的决策过程更加透明和可解释。首先,它可以帮助分析模型在处理不同声呐特征时的响应,从而优化特征选择和提取过程,提高识别的准确性。其次,了解模型的决策依据有助于发现模型可能存在的偏差或错误,从而改进系统设计,确保在各种复杂环境下都能够可靠运行。在研究的过程中,研究者可以探索各种解释性技术,如特征重要性分析、模型可视化、激活热力图等。这些方法不仅使得模型的决策过程可视化,还可以通过解释性指标量化模型的可解释性程度。同时,结合领域知识,将声呐物理特性与模型的决策过程相结合,更好地理解模型对不同声呐信号的响应。研究解释性机器学习和深度学习方法,以提高声呐图像目标识别系统的可解释性,对于优化模型性能、增强系统可信度具有重要意义。

结合最新研究,对声呐图像目标识别的未来研究做出如下展望:

(1)图像生成:声呐图像合成是声呐技术领域中的重要研究方向。一方面,通过合成声呐数据,可以增加可用于模型训练的样本数量,从而减轻数据稀缺性的问题。另一方面,通过创建具有已知特征和标签的合成声呐数据,模型能够更快速地学习和理解不同目标的声呐信号特征。然而,声呐图像合成的挑战在于如何生成高质量的数据,以确保与真实数据的一致性。这包括考虑声呐传感器特性、海底结构和水声传播等因素。研究者需要关注如何建立合成模型,以模拟声呐信号的物理行为,包括反射、散射和噪声。此外,合成数据的质量还受到目标形状、材质和运动的影响,这些因素需要纳入模型中以实现高度逼真的声呐图像合成。声呐图像合成在拓展声呐图像数据集、增强深度学习模型性能方面具有巨大潜力。

(2)增量学习:增量学习是机器学习中一种重要的范式,其核心思想是在模型不断接收新数据时进行动态更新,而无需重新训练整个模型。在声呐图像识别领域,增量学习的应用具有显著的意义。首先,海洋环境的不断变化使得传统的静态模型难以适应新的情境。新的地形、水下目标或环境条件可能在任何时刻出现,因此,一个能够持续学习并适应这些变化的模型变得至关重要。增量学习允许系统通过积累新数据,灵活地调整模型参数,使其能够更好地捕捉并理解新的特征和模式。其次,声呐图像的实时性要求也进一步突显了增量学习的重要性。传统的重新训练模型方法可能会导致较长的停机时间,而这在实际应用中可能是不可接受的。增量学习的能力使得模型能够在不中断系统运行的情况下,通过逐步学习新的数据来不断改进性能,从而实现更高效的图像处理和目标检测。

(3)低复杂度神经网络结构:在应用于声呐图像识别的神经网络设计中,关注低复杂度的架构至关重要。神经网络的设计需要考虑到以下关键因素:首先是计算资源。嵌入式系统或无人平台的计算能力有限,需要选择适应这种环境的轻量级结构。其次是实时性,这对于水下目标探测至关重要。低复杂度的网络结构可以保证在有限资源下实现快速的推理和响应。针对这些挑战,采用诸如模型量化、深度压缩等技术是至关重要的。模型量化可以将神经网络参数表示为更紧凑的形式,降低存储需求并加速推理过程。深度压缩技术则通过剪枝、量化、权重共享等方法,进一步减小模型体积,适应嵌入式系统的限制。除此之外,针对特定于声呐数据的需求,还可以考虑定制化的网络结构。这可能包括利用深度可分离卷积、轻量级的模块化结构或专门针对水下信号处理任务设计的神经网络层。

(4)知识和数据联合驱动:知识和数据联合驱动是将领域专业知识与大规模数据的分析相结合,以提高系统的性能和智能度。在声呐图像识别中,这一理念的应用对于更精准、高效地探测和识别水下目标具有巨大潜力。首先,知识的融合使得声呐图像识别系统能够充分利用领域专家的经验和先进的科学理论。海洋学、声学和信号处理等方面的专业知识可以被整合到算法中,提高系统对声呐数据的理解和解释能力。这意味着系统可以更准确地区分不同类型的水下目标,包括海洋生物、水下小目标、潜艇或海底结构等。其次,数据的大规模应用是知识和数据联合驱动的核心。通过在海洋中收集大量声呐数据并将其纳入系统学习的过程中,算法能够从中发现模式、优化参数,并逐步提高对于不同环境和情境的适应能力。此外,知识和数据联合驱动的原理也将促使声呐图像识别技术与其他传感器和信息源进行整合。融合声呐数据、磁探数据、光学影像等多源数据,能够提供更全面、多维度的信息,进一步提高目标识别的可靠性。这种多模态数据融合的方法将成为未来声呐图像识别系统的发展方向之一。

(5)特征工程和统计学习:特征工程和传统的统计学习在机器学习及数据科学领域中有着深远的影响与重要性。这两者不仅为模型提供了关键的输入,还为解决现实世界中的复杂问题提供了基础和框架。尤其是在数据稀缺、解释性要求高或者模型需求简单的情况下,传统方法往往更加高效和可靠。对于声呐图像中的经典特征工程,它们主要集中在从声呐数据中提取能够反映目标物理特性和形状的关键特征。例如,通过计算目标的反射系数、形状描述符或纹理特性,可以帮助识别和分类不同类型的水下目标。在统计学习方面,传统的算法如支持向量机、随机森林和神经网络等通过学习声呐数据的统计模式和特征分布,实现了目标检测、跟踪和分类等关键任务。经典特征工程和统计学习在声呐图像处理中仍然具有重要的地位和潜力。通过结合传统方法和先进技术,如深度学习、自动化算法和多模态数据融合,我们有望实现在复杂和挑战性的水下环境中更加准确和可靠的目标检测、识别和跟踪,为海洋探测、水下导航和军事应用等领域提供更加强大和高效的工具与解决方案。

7.   结束语

鉴于声呐图像水下目标识别的重要研究和应用价值,本文主要对声呐图像目标识别技术进行了梳理,总结了典型成像声呐的工作原理和应用场景,重点阐述了二维成像声呐和三维成像声呐目标识别的研究进展,另外,对声呐图像目标识别存在的小样本问题、类间不平衡问题、目标特征弱问题、目标多样化问题和目标识别可解释性差等问题进行了总结;同时,对未来可能存在的研究方向声呐图像生成、增量学习、低复杂度神经网络、知识与数据联合驱动、特征工程和统计学习进行了展望。当谈到声呐图像水下目标识别时,可以看到这一领域已经发展成了一个跨学科的、多信息相互交融的研究领域。本文从一个侧面对其进行了较为详细的介绍,虽然未能穷尽所有细节,但希望这些信息对感兴趣的读者提供有价值的参考。

声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。

注:若出现无法显示完全的情况,可 V  搜索“人工智能技术与咨询”查看完整文章

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-11 10:38:05       101 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-11 10:38:05       108 阅读
  3. 在Django里面运行非项目文件

    2024-07-11 10:38:05       91 阅读
  4. Python语言-面向对象

    2024-07-11 10:38:05       98 阅读

热门阅读

  1. 编程语言 Public:深度解析与未来展望

    2024-07-11 10:38:05       30 阅读
  2. 【SQL】InnoDB中的行锁

    2024-07-11 10:38:05       30 阅读
  3. 编程什么好用:深入剖析编程工具的选择与运用

    2024-07-11 10:38:05       27 阅读
  4. C++引用和指针的区别

    2024-07-11 10:38:05       24 阅读
  5. 3.数组基础

    2024-07-11 10:38:05       21 阅读
  6. Docker 日志丢失 - 解决方案

    2024-07-11 10:38:05       23 阅读
  7. 3D Web开发新篇章:threelab探索之旅

    2024-07-11 10:38:05       22 阅读
  8. 外科休克病人的护理

    2024-07-11 10:38:05       26 阅读