Vision Transformer Pytorch 实现代码学习记录

目前运营的社交平台账号:


可能后续有更新,也可能没有更新,谨慎参考

  • V1.0 24-02-13 ViT 代码的基本训练, 预测推理脚本运行

1 学习目标

  1. 能用官方的 ViT 预训练模型在 imagenet1k 上进行预测推理 完成
  2. 在 ImageNet-1K 的完整验证集上验证下载的官方 ViT 预训练模型的准确率

未处理的问题:

  • 官方的 ViT 预处理模型训练时的图片数据预处理方法是什么?

Github pytorch实现的 ViT 代码下载:deep-learning-for-image-processing/pytorch_classification/vision_transformer at master · WZMIAOMIAO/deep-learning-for-image-processing · GitHub
Note: 非官方仓库代码,但 vit_model.py 即ViT 模型定义代码是用的被 TIMM 采用的代码。

已经处理好的 ImageNet1K数据集网盘链接:
链接:https://pan.baidu.com/s/1sYMIwqkNldmqpaJqDK8lSQ?pwd=2024
提取码:2024

2 运行 flops.py (不重要,可跳过)

先安装fvcore包: pip install fvcore
然后点击运行会出错,报错为:
ValueError: Invalid type <class 'numpy.int32'> for the flop count! Please use a wider type to avoid overflow.

|850

点击红框中的位置进入到 jit_handles.py 文件中,修改 14~19行代码如下:

try:  
    from math import prod  
except ImportError:  
    from numpy import prod as prodnp  
    def prod(x):   
        return int(prodnp(x))

然后再重新运行 flops.py 无报错。结果为:

Self-Attention FLOPs: 60129542144
# 中间有一些红色字体的 warnings
Multi-Head Attention FLOPs: 68719476736

3 训练—train.py

从 vit_model 中导入想要训练的 ViT版本, 把默认导入的 vit_base_patch16_224_in21k 给注释掉,确保加载的预训练权重和实例化的模型class一致。

from vit_model import vit_base_patch16_224 as create_model

运行脚本,默认训练10 epochs, 每轮都会将训练好的权重文件保存至 weights 目录下

模型有 327 MB
用tensorboard 打开 runs 目录下的训练log,如下图所示:

4 预测推理—predict.py

现在我们用训练好的模型进行预测推理,自己从数据集或者网上选择一张图作为输入,预测结果如下图所示:

5 在 ImageNet1K 数据集上进行预测推理

我们可以直接加载官方预训练模型在 ImageNet1K 数据集上进行预测推理,需要准备 imagenet 1k的类别索引 json文件,这里我们从github下载即可:
https://github.com/raghakot/keras-vis/blob/master/resources/imagenet_class_index.json

然后准备好部分的 imagenet1K 数据集作为输入的预测图片,最终效果如下图所示:
|775

在进行 data_transform预处理之后,输入图片数据的最大值为 1,最小值为 -0.97

6 其他未整理的学习资料

相关推荐

  1. casa学习代码记录

    2024-02-14 00:20:04       41 阅读
  2. 代码学习记录36---动态规划

    2024-02-14 00:20:04       23 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-02-14 00:20:04       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-02-14 00:20:04       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-02-14 00:20:04       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-02-14 00:20:04       20 阅读

热门阅读

  1. day2-理解 linux 云计算

    2024-02-14 00:20:04       32 阅读
  2. C#中 Combine 静态方法

    2024-02-14 00:20:04       29 阅读
  3. STM32 与 ARM 谁比较强大?

    2024-02-14 00:20:04       28 阅读
  4. ndk-r20b 编译 boost 1.74。

    2024-02-14 00:20:04       36 阅读
  5. 遗传算法实现

    2024-02-14 00:20:04       27 阅读
  6. 安卓termux mosh配置nvim远程开发

    2024-02-14 00:20:04       36 阅读
  7. A股上市以来涨幅排行榜

    2024-02-14 00:20:04       34 阅读
  8. 202401 卓越学院转专业-上机测试

    2024-02-14 00:20:04       32 阅读
  9. UVA489 - Hangman Judge

    2024-02-14 00:20:04       24 阅读
  10. 运维面试题

    2024-02-14 00:20:04       31 阅读