解决pytorch训练的过程中内存一直增加的问题

2023-12-17 14:50:02
开发
56

来自：解决pytorch训练的过程中内存一直增加的问题 - 知乎

pytorch训练中内存一直增加的原因(部分)

代码中存在累加loss，但每步的loss没加item()

import torch
import torch.nn as nn
from collections import defaultdict

if torch.cuda.is_available():
    device = 'cuda'
else:
    device = 'cpu'

model = nn.Linear(100, 400).to(device)
criterion = nn.L1Loss(reduction='mean').to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

train_loss = defaultdict(float)
eval_loss = defaultdict(float)

for i in range(10000):
    model.train()
    x = torch.rand(50, 100, device=device)
    y_pred = model(x) # 50 * 400
    y_tgt = torch.rand(50, 400, device=device)

    loss = criterion(y_pred, y_tgt)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    
    # 会导致内存一直增加，需改为train_loss['loss'] += loss.item()
    train_loss['loss'] += loss

    if i % 100 == 0:
        train_loss = defaultdict(float)
        model.eval()
        x = torch.rand(50, 100, device=device)
        y_pred = model(x) # 50 * 400

        y_tgt = torch.rand(50, 400, device=device)
        loss = criterion(y_pred, y_tgt)

        # 会导致内存一直增加，需改为eval_loss['loss'] += loss.item()
        eval_loss['loss'] += loss

以上代码会导致内存占用越来越大，解决的方法是：train_l oss['loss'] += loss.item() 以及 eval_loss['loss'] += loss.item()。值得注意的是，要复现内存越来越大的问题，模型中需要切换model.train() 和 model.eval()，train_loss以及eval_loss的作用是保存模型的平均误差(这里是累积误差)，保存到tensorboard中。

原文地址:https://blog.csdn.net/wdh315172/article/details/134965621 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1736277555083874304.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2023-12-17 14:50:02 117 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2023-12-17 14:50:02 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2023-12-17 14:50:02 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2023-12-17 14:50:02 101 阅读
NoSQL之Redis非关系型数据库

2023-12-17 14:50:02 101 阅读
2024.7.22 作业

2023-12-17 14:50:02 98 阅读
GDB调试正在运行的程序

2023-12-17 14:50:02 82 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2023-12-17 14:50:02 85 阅读
在Django里面运行非项目文件

2023-12-17 14:50:02 82 阅读
SSD基本架构与工作原理

2023-12-17 14:50:02 87 阅读
在誉天学习完HCIE就业吗？

2023-12-17 14:50:02 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2023-12-17 14:50:02 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2023-12-17 14:50:02 86 阅读
go 协程池的实现

2023-12-17 14:50:02 89 阅读
Shell脚本循环语句与函数

2023-12-17 14:50:02 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2023-12-17 14:50:02 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2023-12-17 14:50:02 85 阅读
四大引用——强软弱虚

2023-12-17 14:50:02 86 阅读
Python语言-面向对象

2023-12-17 14:50:02 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2023-12-17 14:50:02 85 阅读
网站安全-CDN篇

2023-12-17 14:50:02 89 阅读

热门阅读

利用ul元素写的用户管理器

2023-12-17 14:50:02 55 阅读
AI智剪：一键批量剪辑，高效助力创作无限可能

2023-12-17 14:50:02 67 阅读
Python学习笔记第七十七天（OpenCV绘画功能）

2023-12-17 14:50:02 57 阅读
IMF靶场练习

2023-12-17 14:50:02 53 阅读
计算机网络：DNS域名解析系统

2023-12-17 14:50:02 70 阅读
Redis实现延迟队列

2023-12-17 14:50:02 60 阅读
QEMU源码全解析 —— virtio（12）

2023-12-17 14:50:02 49 阅读
new一个对象

2023-12-17 14:50:02 65 阅读
php快速入门

2023-12-17 14:50:02 49 阅读
使用Audition录制电脑内部声音

2023-12-17 14:50:02 74 阅读
盛最多水的容器

2023-12-17 14:50:02 53 阅读
C++的面向对象学习(2)：函数的参数默认值、占位参数、函数重载

2023-12-17 14:50:02 54 阅读
IDEA配置一个新项目

2023-12-17 14:50:02 57 阅读
银行数字化转型导师坚鹏：银行数字化转型正在重塑您的工作

2023-12-17 14:50:02 56 阅读
Tekton 构建容器镜像

2023-12-17 14:50:02 58 阅读
深度学习常用数学知识

2023-12-17 14:50:02 60 阅读
基于linux系统的Tomcat+Mysql+Jdk环境搭建（二）jdk1.8 linux 上传到MobaXterm 工具的已有session里

2023-12-17 14:50:02 57 阅读
基于Leaflet的Webgis经纬网格生成实践

2023-12-17 14:50:02 65 阅读
TCP/IP详解——HTTP 协议

2023-12-17 14:50:02 67 阅读
Python爬虫：使用Scrapy框架将XXTop250电影信息存储到MySQL数据库

2023-12-17 14:50:02 50 阅读
ChatGPT 也宕机了？如何预防 DDOS 攻击的发生

2023-12-17 14:50:02 40 阅读
解决：Invalid bound statement (not found): com.XXXXX.UserMapper.countUser

2023-12-17 14:50:02 59 阅读
509.斐波那契数

2023-12-17 14:50:02 63 阅读
自建私有git进行项目发布

2023-12-17 14:50:02 52 阅读
八股文打卡day1——计算机网络（1）

2023-12-17 14:50:02 54 阅读
MySQL 常用数据类型总结

2023-12-17 14:50:02 63 阅读
【Https】工作流程

2023-12-17 14:50:02 54 阅读
2023-12-17 AIGC-AnimateDiff详细安装和使用教程

2023-12-17 14:50:02 68 阅读
452. Minimum Number of Arrows to Burst Balloons

2023-12-17 14:50:02 64 阅读
数据结构之---- 回溯算法

2023-12-17 14:50:02 40 阅读