DETR【Transformer+目标检测】

2024-04-04 08:02:01
开发
29

End-to-End Object Detection with Transformers

2024 NVIDIA GTC，发布了地表最强的GPU B200，同时，黄仁勋对谈《Attention is All You Need》论文其中的7位作者，座谈的目的无非就是诉说，Transformer才是今天人工智能成功的核心关键，它上面承载着大模型的运转，下面承载着对训练和推理芯片的要求。

1、Introduction

DETR 的开创性主要体现不需要像Faster R-CNN、YOLO等目标检测算法那样，生成大量的预测框，然后再通过NMS非极大值抑制方法处理冗余的预测框。
而是，利用 Transformer 全局建模的能力，把目标检测看成集合预测（给定一张图片，返回一个集合，其中包括每个框的坐标，以及框中物体的类别）的问题。

2、DETR architecture

首先，图像经过CNN提取图像特征，再经过 Transformer Encoder 学习全局特征，让 Decoder 预测出检测结果，最后，将置信度大的目标作为检测结果。
在这里插入图片描述

3、Encoder self-attention

作者将编码器注意力可视化，利用对每个物体选一个点计算自注意力，可以发现，经过Transformer Encoder后每个物体都可以很好的区分开来。
在这里插入图片描述

4、Decoder

Encoder是学习全局特征，让物体之间尽可能分得开。但是对于轮廓点这些细节就需要Decoder去做，Decoder可以很好的处理遮挡问题。
在这里插入图片描述

5、Comparison with Faster R-CNN

在这里插入图片描述

6、Conclusion

文章作者指出DETR的优势在于：
- 对于大物体的检测，性能优于Faster R-CNN；
- 模型结构简单，Pytorch推理代码不到50行；
- 方便拓展到其他任务上，文章也指出DETR在全景分割上表现出不错的效果.
文章作者也指出DETR存在的缺点：
- 模型训练时间较长，大概需要500epoch；
- 相对于Faster R-CNN，对于小物体的目标检测性能较差。

查阅文章

【计算机视觉 | 目标检测】Object query的理解
 从人脑到Transformer：轻松理解注意力机制中的QKV
DETR哔哩哔哩讲解笔记
 DETR哔哩哔哩讲解笔记
 DETR哔哩哔哩讲解笔记
 DETR哔哩哔哩讲解笔记

原文地址:https://blog.csdn.net/qq_1532145264/article/details/137141243 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1775675151057293312.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

$<span style='color:red;'>目标</span><span style='color:red;'>检测</span><span style='color:red;'>检测</span>精度$

目标检测检测精度

2024-04-04 08:02:01 45 阅读
【目标检测】1. 目标检测概述

2024-04-04 08:02:01 43 阅读
目标检测简介

2024-04-04 08:02:01 42 阅读
目标检测开源数据

2024-04-04 08:02:01 61 阅读
DETR 目标检测

2024-04-04 08:02:01 50 阅读
yolov5目标检测

2024-04-04 08:02:01 56 阅读
目标检测锚框

2024-04-04 08:02:01 39 阅读
SSD目标检测

2024-04-04 08:02:01 49 阅读
FasterRCNN目标检测

2024-04-04 08:02:01 47 阅读
目标检测--01

2024-04-04 08:02:01 55 阅读

最近更新

题解 - 序列

2024-04-04 08:02:01 114 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-04-04 08:02:01 97 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-04-04 08:02:01 91 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-04-04 08:02:01 97 阅读
NoSQL之Redis非关系型数据库

2024-04-04 08:02:01 98 阅读
2024.7.22 作业

2024-04-04 08:02:01 95 阅读
GDB调试正在运行的程序

2024-04-04 08:02:01 80 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-04-04 08:02:01 79 阅读
在Django里面运行非项目文件

2024-04-04 08:02:01 78 阅读
SSD基本架构与工作原理

2024-04-04 08:02:01 84 阅读
在誉天学习完HCIE就业吗？

2024-04-04 08:02:01 92 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-04-04 08:02:01 81 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-04-04 08:02:01 82 阅读
go 协程池的实现

2024-04-04 08:02:01 85 阅读
Shell脚本循环语句与函数

2024-04-04 08:02:01 86 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-04-04 08:02:01 90 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-04-04 08:02:01 82 阅读
四大引用——强软弱虚

2024-04-04 08:02:01 84 阅读
Python语言-面向对象

2024-04-04 08:02:01 88 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-04-04 08:02:01 81 阅读
网站安全-CDN篇

2024-04-04 08:02:01 85 阅读

热门阅读

年少不知EFCore好，错把SqlSugar当成宝

2024-04-04 08:02:01 36 阅读
C++中的List容器用法详解

2024-04-04 08:02:01 30 阅读
如何打造一个好的(Vue)组件库？这里有一个清单

2024-04-04 08:02:01 32 阅读
大模型中Prompt 攻击和防范

2024-04-04 08:02:01 37 阅读
【氮化镓】同质GaN垂直PiN二极管的SEB

2024-04-04 08:02:01 30 阅读
stm32f103c8t6学习笔记（学习B站up江科大自化协）-SPI

2024-04-04 08:02:01 40 阅读
STM32串口认识

2024-04-04 08:02:01 34 阅读
【Python整理】 Python知识点复习

2024-04-04 08:02:01 36 阅读
mysql MHA高可用

2024-04-04 08:02:01 28 阅读
如何用Git在终端以可视化的方式查看提交情况

2024-04-04 08:02:01 30 阅读
linux虚拟机上安装，使用以及远程连接mysql

2024-04-04 08:02:01 25 阅读
C语言——常用库函数的使用及模拟实现

2024-04-04 08:02:01 41 阅读
C++基础13：C++输入输出

2024-04-04 08:02:01 33 阅读
wordvect嵌入和bert嵌入的区别

2024-04-04 08:02:01 39 阅读
OpenHarmony实战开发-使用一次开发多端部署实现一多应用市场首页

2024-04-04 08:02:01 40 阅读
gateway应用(1)

2024-04-04 08:02:01 31 阅读
运动伤害预防的实际案例

2024-04-04 08:02:01 38 阅读
基于Python的简单颜色替换

2024-04-04 08:02:01 34 阅读
天诚智慧校园管理系统，变革高校物联网锁数智化通行新模式

2024-04-04 08:02:01 38 阅读
一次Postgres的实体表重构经历

2024-04-04 08:02:01 32 阅读
【C#】数字后缀及其作用 | Numeric Literal Suffixes and Their Usage in C#

2024-04-04 08:02:01 36 阅读
jQuery(二)

2024-04-04 08:02:01 28 阅读
IntelliJ IDEA中文---强化智能编码与重构，提升开发效率

2024-04-04 08:02:01 40 阅读
C#使用Selenium驱动Chrome浏览器

2024-04-04 08:02:01 38 阅读
走近Shiro--一起学习吧之架构

2024-04-04 08:02:01 36 阅读
拾光坞N3 ARM 虚拟主机 i茅台项目

2024-04-04 08:02:01 32 阅读
OSPF中配置静态路由负载分担实验简述

2024-04-04 08:02:01 37 阅读
速盾：服务器有cdn 带宽上限建议多少

2024-04-04 08:02:01 38 阅读
搜维尔科技：TechViz 虚拟现实在工业项目中沉浸式体验

2024-04-04 08:02:01 34 阅读
是德科技keysight 33621A波形发生器

2024-04-04 08:02:01 29 阅读