DETR论文粗读

一.前情提要

1.本文理论为主,并且仅为个人理解,能力一般,不喜勿喷

2.本文理论知识较为散碎

3.如有需要,以下是原文,更为完备

DETR 论文精读【论文精读】_哔哩哔哩_bilibili

二.正文

示意图:

1.不同与其他目标检测的技术

①端到端,其他多用非极大抑制等技术

②视为集合预测问题

③提出新的目标函数,使用二分图匹配:即不需要那么多框

eg:

2.最大优势

①简单,只要有库就能使用

②在全景分割上效果较好

绕过anchr、nums

3.运算

计算100个框和2个框之间的matching loss,再确定哪两个相匹配因为使用了transformer,所以在大物体上的效果优于小物体,通过多尺度特征来解决小物体问题,并且解决了训练速度过慢这个问题

4.在目标检测上,detr并没有采用原始的集合预测与人工干预共同处理,因为该处理方法效率较低,速度较慢前人使用rcnn解决encoder问题效果并不理想,所以本项目使用transformer解决了这些问题。

本项目输出的集合是一定的,比如该项目输出来是100,意思是给一张图片输出来的,结果也是100种

5.损失函数:

①本项目的特点是二分图匹配,可以粗浅理解为让工人去做自己擅长的事情,因为每个工人的经历和擅长的点是不一样的,如图

(a,b,c工人,x,y,z事情)

②便利集合也可以运算,但是匈牙利算法更加高效,公式如下

目标函数最后的公式

③如图,还有两个loss,一个是出框,一个是分类,此处不同于以往因为有的计算是根据框的大小来的,所以使用,Generalized iou loss整体流程可以概括为先计算最优匹配再计算loss

④整体网络框架如下

(最后有物体类别预测和出框预测,类别是91框是4,在decode后加ffn,此处为fnn共)享参数

7.整体代码简单易上手如图

8.通过消融实验展示优秀性能

此处自注意力做的非常完美,比如大象和小象的蹄子之间的间隔,能处理的非常好,能精确分辨出。

相关推荐

最近更新

  1. TCP协议是安全的吗?

    2024-04-14 09:48:02       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-14 09:48:02       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-14 09:48:02       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-14 09:48:02       18 阅读

热门阅读

  1. 分布式基础环境搭建

    2024-04-14 09:48:02       16 阅读
  2. 数据结构_带头双向循环链表

    2024-04-14 09:48:02       16 阅读
  3. geekos-project3

    2024-04-14 09:48:02       13 阅读
  4. Python常用OS库之path模块学习

    2024-04-14 09:48:02       20 阅读
  5. 【CSS基础】10.过度动画transition和动画animation

    2024-04-14 09:48:02       19 阅读
  6. 前端面试问题汇总 - HTTP篇

    2024-04-14 09:48:02       34 阅读
  7. 常用类——包装类

    2024-04-14 09:48:02       15 阅读
  8. 【leetcode面试经典150题】47. 最长连续序列(C++)

    2024-04-14 09:48:02       15 阅读