场景文本检测&识别学习 day04（目标检测的基础概念）

2024-04-12 23:00:03
开发
18

经典的目标检测方法

one-stage 单阶段法：YOLO系列

one-stage方法：仅使用一个CNN，直接在特征图上预测每个物体的类别和边界框
输入图像之后，使用CNN网络提取特征图，不加入任何补充（锚点、锚框），直接输出预测框左上右下角的坐标以及物体的类别
即该CNN网络在单次前向传播中，不仅提取特征，还要预测每个物体的类别和边界框
优点：速度非常快，适合做实时检测任务
缺点：效果通常不会太好

two-stage 两阶段：Faster-RCNN 、 Mask-RCNN系列

two-stage方法：使用多个网络组件，CNN、RPN等，而CNN仅用来提取特征图，在最后包含全连接层的网络上输出每个物体的类别和边界框
一阶段，区域提议：输入图像之后，会先经过CNN网络，生成特征图。在将特征图送入RPN（区域提议网络）生成一系列区域提议（预选框、锚框），RPN根据这些预选框，输出这些锚框包含物体的概率，以及锚框与真实框的偏移量
二阶段，检测：对于每个提议区域（RoI），使用RoI池化、RoI Align等方法，从特征图中提取固定尺寸大小的特征，并将这些特征送入全连接层，得到最后选择的锚框中的类别概率、边界框的调整参数。（因为锚框在第一步生成了非常多，所以可能会有多个边界框检测到同一物体。）最后需要使用NMS来过滤这些重复框。最后根据置信度阈值来输出类别、相应置信度得分、以及目标的边界框

锚点、锚框

锚点、锚框作为额外补充的方法，主要用在two-stage的目标检测方法中，但是YOLOV2开始，也使用锚点、锚框来提升模型对不同尺寸和形状的物体的检测能力，但区别于two-stage的方法，YOLO仍然是在单个网络提过程中完成分类和边界框的回归。
在RPN（区域提议网络）中，锚点代表潜在的候选区域的中心，也是锚框的中心。
每个锚点可以生成多个锚框，而锚框则是作为候选框，用于覆盖图像中可能出现物体的不同位置和形状
在Fast R-CNN的RPN中，锚框就被用来预测物体的位置，而RPN会对每个锚框输出两个结果，一个是物体的存在概率，一个是锚框的调整参数（用来接近真实框）

特征图、特征向量

特征图是CNN中的概念，它表示输入图像经一系列卷积层、池化层处理后的得到的中间输出结果，特征图通常是三维的数据结构，具体为（高度，宽度，通道数），所以特征图保留了输入图片的位置信息。特征图通常出现在网络的中间层，代表输入数据的中间级特征
特征向量是一个一维数组，它表示输入数据经过网络最后几层全连接层的输出，用于描述输入数据的高级抽象特征。特征向量通常出现在网络的最后几层，代表输入数据的高级特征。

原文地址:https://blog.csdn.net/u011453680/article/details/137692447 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1778800251658964992.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部