论文阅读——ScanQA

2023-12-13 15:36:01
开发
39

ScanQA: 3D Question Answering for Spatial Scene Understanding

输入：点云P和问题Q，输出：答案A

点云p由三维坐标点组成。本文模型使用额外的点云特征：点云高度、颜色、法线和多视图图像特征，这些特征将 2D 外观特征投影到点云上。将上面这些特征结合，作为模型的3d特征。

ScanQA model网络结构：

模型包括3D &language encoder, 3D & language fusion, and object localization & QA layers

VoteNet的骨干网络是PointNet++，VoteNet的输入是3d特征，输出的是物体候选区域，然后使用非线性层候选物体的表示。

transformer encoder提供K和V

Fusion是一个带有注意力的两层MLP

最上面一层目标定位Object localization module模块是用于决定VoteNet输出的目标框属于该问题的最大似然，也就是，网络会生成很多框，但是只有一部分是和问题相关的，这个模块要把它选出来。使用CEloss。

Object classification module预测了什么物体是和问题有关系的。CEloss。

Answer classification module预测问题的答案。

LOSS：

VoteNet有个检测损失Ldet，还有最上面三个模块的定位损失Lloc，分类损失Lobj，答案损失Lans，四者相加。L = Lans + Lobj + Lloc + Ldet

原文地址:https://blog.csdn.net/weixin_43575791/article/details/134961285 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1734839576305995776.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

论文阅读——ScanQA

2023-12-13 15:36:01 40 阅读
【论文阅读】

2023-12-13 15:36:01 22 阅读
论文阅读：Vary论文阅读笔记

2023-12-13 15:36:01 35 阅读
论文阅读：Vary-toy论文阅读笔记

2023-12-13 15:36:01 41 阅读
【论文阅读笔记】清单

2023-12-13 15:36:01 51 阅读
《PFL》论文阅读笔记

2023-12-13 15:36:01 52 阅读
gpt阅读论文利器

2023-12-13 15:36:01 36 阅读
SimCSE论文阅读

2023-12-13 15:36:01 41 阅读
[论文阅读]DETR

2023-12-13 15:36:01 38 阅读
[论文阅读]BEVFusion

2023-12-13 15:36:01 31 阅读

热门阅读

订单系统的设计与海量数据处理实战

2023-12-13 15:36:01 31 阅读
Oracle数据库对SAP的支持

2023-12-13 15:36:01 29 阅读
第二十一章网络通信总结

2023-12-13 15:36:01 34 阅读
【Protobuf】( ubuntu18/20/22 ) apt | 源码安装卸载protobuf、CMakeLists指定多版本protobuf某一特定版本

2023-12-13 15:36:01 27 阅读
[C++] 继承

2023-12-13 15:36:01 38 阅读
Babylonjs学习笔记(十)——拉伸多边形

2023-12-13 15:36:01 34 阅读
QML与C++之间结构体输出

2023-12-13 15:36:01 37 阅读
Apifox 最新更新：迭代分支功能上线、在线文档支持多格式导出！

2023-12-13 15:36:01 37 阅读
名称空间与函数对象

2023-12-13 15:36:01 35 阅读
工具：Jupyter

2023-12-13 15:36:01 39 阅读
力扣面试150题｜ 209.长度最小的子数组

2023-12-13 15:36:01 35 阅读
工厂模式实现

2023-12-13 15:36:01 40 阅读
力扣labuladong——一刷day70

2023-12-13 15:36:01 40 阅读
西南交通大学【数电实验6---可控分频器设计】

2023-12-13 15:36:01 33 阅读
路径总和（递归）

2023-12-13 15:36:01 42 阅读
POJ：1113

2023-12-13 15:36:01 41 阅读
IBM x3400 增加CPU后，无法开机

2023-12-13 15:36:01 36 阅读
springboot全局异常处理和自定义异常处理

2023-12-13 15:36:01 40 阅读
网络安全（黑客）自学

2023-12-13 15:36:01 35 阅读
轻松应用字典树

2023-12-13 15:36:01 42 阅读
微信小程序：上传图片到别的域名文件下

2023-12-13 15:36:01 42 阅读
【LeetCode:70. 爬楼梯 | 递归 -＞记忆化搜索 -＞ DP】

2023-12-13 15:36:01 40 阅读
uview1 的u-tabs组件在微信小程序中会出现横向滚动条

2023-12-13 15:36:01 40 阅读
【教程】制作 iOS 推送证书

2023-12-13 15:36:01 38 阅读
云基础软件深化合作，云轴科技ZStack与麒麟软件战略签约

2023-12-13 15:36:01 43 阅读
力扣 | 226. 翻转二叉树

2023-12-13 15:36:01 44 阅读
《地理信息系统原理》笔记/期末复习资料（9. 网络地理信息系统）

2023-12-13 15:36:01 25 阅读
Qt提升绘制效率，绘制加速。

2023-12-13 15:36:01 38 阅读
深入理解网络 I/O 多路复用：Epoll

2023-12-13 15:36:01 29 阅读
嵌入式系统复习--ARM技术概述

2023-12-13 15:36:01 42 阅读