【机器学习】卷积神经网络(五)-计算机视觉应用

七、应用-计算机视觉

7.1 人脸检测

DenseBox\Femaleness-Net\MT-CNN\Cascade CNN 介绍

09d80934883241c4303e322fcc08c146.png

7d8b5e305f2b67ef827b5226787d2602.png

VJ框架的分类器级联用于卷积网络

8d8118f9e262ccbbb34a7b1cc8d08b71.png

用于人脸检测的紧凑卷积神经网络级联

问题:作者希望实时检测高分辨率视频流中的正面,由于人脸图像和背景的多样性和复杂性,这具有挑战性。

解决方案:作者提出了三个卷积神经网络 (CNN) 的级联,其参数很少,并且可以在移动 GPU 上高效运行。

结果:作者表明,他们的 CNN 级联可以以高达每秒 27 帧的速度处理 4K 超高清视频,并在 FDDB 数据集上实现与最先进的正面人脸检测器相当的性能。他们还声称他们的检测器比任何现有的 CPU 或 GPU 算法都要快得多2。

本文提出了一种基于三个紧凑 CNN 级联的正面人脸检测新解决方案34。第 1 部分的要点是:

动机:作者的目标是设计一种快速、准确的检测器,可以处理高分辨率视频流,并应对人脸图像和背景的巨大变化和困难。

方法:作者使用三个参数很少的 CNN,并针对低级并行性和速度对其进行了优化。第一个 CNN 扫描图像金字塔并拒绝大部分背景区域5。第二个和第三个 CNN 使用选择单元对剩余区域进行分类和细化。最终的检测是通过非极大值抑制算法获得的。

评估:作者将他们的检测器与 FDDB 数据集上的其他正面和多视角人脸检测器进行了比较,结果表明他们的检测器具有相似的性能,但速度要高得多。他们还展示了他们的探测器可以在移动 GPU 上实时处理 4K 超高清视频,并且对图像内容具有鲁棒性。

这篇论文提出了一种基于卷积神经网络(CNN)的级联人脸检测器,它具有以下几个特点:

  • 它只有三个级联阶段,比其他的级联方法更简洁。

  • 它使用了紧凑的CNN结构,减少了特征图的数量,但保证了模型的准确性。

  • 它可以异步地执行不同的级联阶段,提高了检测的速度和效率。

  • 它利用了SIMD、CUDA和OpenCL等技术,对CNN的实现进行了优化,使得检测器的性能接近硬件的峰值。

这篇论文在两个公开的人脸检测数据集上进行了实验,证明了它的优越性。它可以在移动平台上实时地处理4K超高清视频流。

5ccd91bf8320c7c86174cd05ee94fba2.png

Compact Convolutional Neural Network Cascade for Face Detection

https://arxiv.org/ftp/arxiv/papers/1508/1508.01292.pdf  Compact Convolutional Neural Network Cascade for Face Detection

https://github.com/Bkmz21/CompactCNNCascade Bkmz21/CompactCNNCascade:一个二进制库,用于使用紧凑型 CNN 进行非常快速的人脸检测。(github.com)

51c25b0f32a32facf72ac5dbdf8e1d83.png

DenseBox目标检测

d74b7a9c2297fdae747d66a60ea800f2.png

3b614896c43f9549e8cab6aea5386e2b.png

b0bfc9485d9ac3afed28fbf0cde744f7.png

网络结构

https://zhuanlan.zhihu.com/p/44021975 人脸检测之DenseBox - 知乎 (zhihu.com)

https://arxiv.org/abs/1509.04874 

Faceness-Net 人脸检测

adcb118a362368b667ce043244010118.png

97f4f4fab1cd3a5b456175bf55007e00.png

b0b10fe3493c73b56d5884cf59e1a7d8.png

https://ar5iv.labs.arxiv.org/html/1701.08393?_immersive_translate_auto_translate=1 Faceness-Net: Face Detection through Deep Facial Part Responses --- [1701.08393] Faceness-Net:通过深层面部部分响应进行人脸检测 (arxiv.org)

MT-CNN(Multi-Task CNN,多任务CNN)

cedc9ca78c9a88e9b7c90e84e28a9c71.png

71c63af3b2e49a8c3695f8e91f5110a4.png

https://github.com/timesler/facenet-pytorch 预训练的 Pytorch 人脸检测 (MTCNN) 和人脸识别 (InceptionResnet) 模型

https://github.com/YYuanAnyVision/mxnet_mtcnn_face_detection  MTCNN人脸检测,下载mxnet_mtcnn_face_detection的源码

7.2 通用目标检测

12947c03d3e4bb62b862b099a8673a5c.png

deformable parts model 介绍

585ed87d99b95de0f956d20593263b53.png

 IOU概念介绍

6a93a55d9e910b4c902581d2873be38f.png

通用目标检测的R-CNN算法

dae3f964a7fbe639ceb6c83983eb1c0c.png

35830bed2736af70dfc52ea5018a98b2.png

4f3d4b987576b17333c4884ea5881081.png

8bad28653697d7c9f6ae188624a4448a.png

https://en.wikipedia.org/wiki/Region_Based_Convolutional_Neural_Networks

https://neurohive.io/en/popular-networks/r-cnn/

空间金字塔池化(Spatial Pyramid Pooling,简称SPP)网络

09951d6002d7bbcb506de5a4712e5475.png

a0c4e2dc63b3f5e075b6c9a1407aff72.png

9ac720bfea3fd84ed60c36dffd1b61dd.jpeg

https://www.mdpi.com/2079-9292/9/6/889 Evaluation of Robust Spatial Pyramid Pooling Based on Convolutional Neural Network for Traffic Sign Recognition System (mdpi.com)

SPP网络与R-CNN网络对比

6d804085a351457085f36bcf9d50acdf.png

介绍Fast R-CNN 网络

eade2c8e230f54bbcbce430e6a85d008.png

56a87f1d0314c53c55a6eb1acc1cac20.png

897c796d8eeafdc7756a87da624f4392.png

3b51c82f341e918350843e3b36406b04.png

Fast R-CNN - arXiv.org. https://arxiv.org/abs/1504.08083.

https://github.com/rbgirshick/fast-rcnn

详述R-CNN,SPP,Fast R-CNN的优缺点

ff0f936ce10735bd1e143d3b49835b59.png

c9d5365a7599150b8d241542860b1478.png

e53c19039e8b13b5af3bb78a7d567778.png

ROI池化层

e825a4e4dbe5b6197a2e742ca0b052e5.png

2f84c7bc3c68492b1ce2cc83a666b068.png

Faster R-CNN

819f2e756343f2a287511970f2647607.png

f881fc9322d7eadf8cf6d6e9a9955041.png

https://zhuanlan.zhihu.com/p/370407951 一文详解R-CNN、Fast R-CNN、Faster R-CNN - 知乎 (zhihu.com)

Faster R-CNN相比于之前的R-CNN版本有哪些优点和不足?

fc29ae47ef48aa794de8a8c65dcb40ac.png

Mask R-CNN

2ae1394d1e960b3dff0fa3f5290fb714.png

9dc74db9f491df72a5b7e01cdbae5fc1.png

https://arxiv.org/abs/1703.06870 [1703.06870] Mask R-CNN (arxiv.org)

https://zhuanlan.zhihu.com/p/462521226 Mask R-CNN超详细介绍 - 知乎 (zhihu.com)

Yolo 网络

4807571c31f2dcfe886957a4b860b377.png

aaa2a07ef8f0a56bd90b5c48f8ae8d77.png

e9d0e30ce240e0eb00b5f3b9c9645b32.png

https://github.com/ultralytics/yolov5

https://zhuanlan.zhihu.com/p/186014243

YOLO相较于R-CNN系列算法有哪些不同之处?

814fb45f85630bd63e040f10772e810e.png

SSD网络

0b2b557ce194dc8839153e9787103d5a.png

SSD网络结构

4e1ff76907a47ba65ab8099ad5f9ec9e.png

d202c4f6adfa924fe4ae6d772743faf6.png

SSD网络主要用于哪些任务?

fb40269c9fd008bdda0f51d2d326017a.png

SSD网络是如何生成候选检测框的?

892bf75265dbb82e2c3293c4a427d119.png

SSD网络的训练算法

6bd5da1792e041178b15808fcff0fd4e.png

https://arxiv.org/abs/1512.02325

https://arxiv.org/pdf/1512.02325.pdf

Smooth L1损失

0846ea78be31c16250287ae40c9a9b55.png

88accce43907e0dc6092b3b99989f4b2.png

https://zhuanlan.zhihu.com/p/267688490 目标检测回归损失函数——L1、L2、smooth L1 - 知乎 (zhihu.com)

7.3 人脸关键点定位

c0f8bd9d9c836c976fdf18678c0d3370.png

a5dfe42bebc9386416826999ee0ef118.png

参考网址:

https://aravamu2-cs-766-project-webpage.netlify.app/r-cnn/

https://zhuanlan.zhihu.com/p/172121380

最近更新

  1. TCP协议是安全的吗?

    2024-01-05 10:08:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-05 10:08:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-05 10:08:02       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-05 10:08:02       20 阅读

热门阅读

  1. C 练习实例12

    2024-01-05 10:08:02       33 阅读
  2. Golang leetcode160相交链表 map 双指针迭代

    2024-01-05 10:08:02       34 阅读
  3. Spring Task之定时任务

    2024-01-05 10:08:02       29 阅读
  4. 如何关闭C源代码中的指定警告?

    2024-01-05 10:08:02       34 阅读
  5. c++ asio: udp server and client demo

    2024-01-05 10:08:02       46 阅读
  6. uni-app 中使用定时器和取消定时器

    2024-01-05 10:08:02       36 阅读
  7. Invoke和BeginInvoke的区别

    2024-01-05 10:08:02       30 阅读
  8. SpringBoot之项目管理

    2024-01-05 10:08:02       38 阅读
  9. PAT乙级1038 统计同成绩学生

    2024-01-05 10:08:02       34 阅读