pytorch训练的时候 shm共享内存不足,导致训练停止

1.查看shm情况

df -h /dev/shm

在这里插入图片描述
内存已经满了,因为之前训练多次训练意外停止到shm中的缓存不能及时被清理
2、手动清理shm
在这里插入图片描述
依然没被释放
在这里插入图片描述
3、查看关联的进程,一个一个kill

lsof |grep deleted

kill -9 46619 44618 44617 。。。。。

在这里插入图片描述

4、搞定
在这里插入图片描述

相关推荐

  1. 解决pytorch训练过程中内存一直增加问题

    2024-07-14 06:42:01       51 阅读
  2. docker 共享内存不足问题

    2024-07-14 06:42:01       26 阅读
  3. 共享内存PytorchDataloader结合

    2024-07-14 06:42:01       35 阅读
  4. NCCL P2P与共享内存SHM差异

    2024-07-14 06:42:01       26 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-14 06:42:01       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-14 06:42:01       72 阅读
  3. 在Django里面运行非项目文件

    2024-07-14 06:42:01       58 阅读
  4. Python语言-面向对象

    2024-07-14 06:42:01       69 阅读

热门阅读

  1. Ubuntu linux安装新版本go

    2024-07-14 06:42:01       23 阅读
  2. 无人机电子围栏及其关键技术

    2024-07-14 06:42:01       19 阅读
  3. git 创建分支--命令行

    2024-07-14 06:42:01       21 阅读
  4. k8s中kubesphere开启devops总是报错解决

    2024-07-14 06:42:01       24 阅读
  5. 酒店房间登记与计费管理系统(c++)

    2024-07-14 06:42:01       19 阅读
  6. golang监控公网IP变化自动同步dns解析

    2024-07-14 06:42:01       27 阅读
  7. Unity脚步.txt

    2024-07-14 06:42:01       25 阅读
  8. React Native Android 应用开发、调试与发布深度指南

    2024-07-14 06:42:01       28 阅读
  9. 方差是什么?

    2024-07-14 06:42:01       20 阅读
  10. 【jvm】字符串常量池问题

    2024-07-14 06:42:01       25 阅读