ViT学习笔记

2024-03-16 06:16:06
开发
19

一、Embedding层

对于标准的Transformer 模块，要求输入的是 token (向量 ) 序列，即二维矩阵 [num_token, token_dim]

在代码实现中，直接通过一个卷积层来实现以ViT- B/16为例，使用卷积核大小为 16x16 ， stride 为 16 ，卷积核个数为768

[224, 224, 3] -> [14, 14, 768] -> [196, 768]

在输入Transformer Encoder 之前需要加上 [class]token 以及Position Embedding ，都是可训练参数；拼接[class]token: Cat([1, 768], [196, 768]) -> [197, 768] ；叠加Position Embedding: [197, 768]-> [197, 768]

使用位置编码效果会好一点，而使用1D，2D，相对位置编码，效果差不多

二、Transformer Encoder层

注意，在Transformer Encoder前有个Dropout层，后有一个Layer Norm

训练 ImageNet21K 时是由 Linear+tanh激活函数 +Linear ；但是迁移到ImageNet1K 上或者你自己的数据上时，只有一个 Linear

原文地址:https://blog.csdn.net/weixin_45971154/article/details/136740323 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1768763124418220032.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

ViT学习笔记

2024-03-16 06:16:06 20 阅读
transformer和vit学习笔记

2024-03-16 06:16:06 33 阅读
vim学习笔记

2024-03-16 06:16:06 44 阅读
Vitis AI——FPGA学习笔记＜?＞

2024-03-16 06:16:06 14 阅读
Vim学习笔记01～04

2024-03-16 06:16:06 15 阅读
TransNeXt：稳健的注视感知ViT学习笔记

2024-03-16 06:16:06 31 阅读
vit细粒度图像分类（一）CADF学习笔记

2024-03-16 06:16:06 33 阅读
vit细粒度图像分类（八）SIM-Trans学习笔记

2024-03-16 06:16:06 21 阅读
vit细粒度图像分类（十）TransFG学习笔记

2024-03-16 06:16:06 28 阅读
【Vitis】Vitis HLS学习系列笔记：第一个例程

2024-03-16 06:16:06 32 阅读