bevformer详解(1):论文介绍

在这里插入图片描述

3D 视觉感知任务,包括基于多摄像头的3D检测地图分割对于自动驾驶系统至关重要。本文提出了一种名为BEVFormer新框架,它通过使用空间和时间Transformer 学习统一的BEV表示来支持多个自动驾驶感知任务。简而言之,BEVFormer通过预定义的网格形式的Bev Query与空间和时间空间交互来提取时间空间信息。为了聚合空间信息,BEVFormer设计空间交叉注意力(spatial cross-attention),每个BEV Query从不同摄像头的感兴趣区域中提取空间特征。对于时间信息,BEVFormer中提出时间自注意力(temporal self-attention)来反复融合历史BEV信息。BEVFormer在nuScenes测试集上实现了新的SOTA水平,NDS指标为56.9%,相比以往的SOTA提高9.0个点,与基于 Lidar的 Baseline 性能相当。作者还进一步表明,BEVFormer在低可见性条件下显著提高了速度估计的准确性和召回率。

相关推荐

  1. Unity构建详解1)——SBP介绍

    2024-05-13 02:16:05       45 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-05-13 02:16:05       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-05-13 02:16:05       101 阅读
  3. 在Django里面运行非项目文件

    2024-05-13 02:16:05       82 阅读
  4. Python语言-面向对象

    2024-05-13 02:16:05       91 阅读

热门阅读

  1. E/CameraDeviceState: Cannot receive result while in state: 0

    2024-05-13 02:16:05       30 阅读
  2. 简单的Python示例母亲节的祝福

    2024-05-13 02:16:05       29 阅读
  3. tcpdump速查表

    2024-05-13 02:16:05       36 阅读
  4. springmvc处理模型数据

    2024-05-13 02:16:05       30 阅读
  5. 回到家萨嘎时间

    2024-05-13 02:16:05       28 阅读
  6. Map接口

    Map接口

    2024-05-13 02:16:05      27 阅读