【代码问题】【Pytorch】训练模型时Loss为NaN或INF

解决方法或者问题排查:

加归一化层
我的问题是我新增的一个模块与原来的模块得到的张量相加,原张量是归一化后的,我的没有:

class Module(nn.Module):

    def __init__(
            self,
            dim,
    ):
        super().__init__()
        # 新增一个LayerNorm层进行归一化
        self.layer_norm = nn.LayerNorm(dim)

    def forward(self, x, size):
        # 最后输出前进行处理
        x = self.layer_norm(x)
        return x
	

batchsize设小点

学习率降低

数据缺少label


我只遇到了第一个那种情况,所以我给出第一个的解决方法,其他的后续遇到再补充。
排查的时候可以在关键节点增加断点,比如我的训练一个epoch时没问题,一个epoch训练完要进行验证的时候出现问题,所以打印出一个epoch的所有loss看怎么回事。
在这里插入图片描述

相关推荐

  1. Stable Diffusion模型基于 TensorFlow PyTorch 训练

    2024-04-24 13:16:01       15 阅读
  2. 复现NAS with RLpytorch的相关问题

    2024-04-24 13:16:01       41 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-04-24 13:16:01       14 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-24 13:16:01       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-24 13:16:01       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-24 13:16:01       18 阅读

热门阅读

  1. springboot项目打war包,并且部署外部tomcat中

    2024-04-24 13:16:01       17 阅读
  2. 【Redis】Spring Boot应用中的Redis分布式锁示例

    2024-04-24 13:16:01       12 阅读
  3. windows、Mac如何安装vue开发环境?

    2024-04-24 13:16:01       11 阅读
  4. 在Linux上开启FTP服务

    2024-04-24 13:16:01       13 阅读
  5. LeetCode 344.反转字符串

    2024-04-24 13:16:01       13 阅读
  6. 多服务器上的 docker 实现互相访问

    2024-04-24 13:16:01       15 阅读
  7. React vs React Native写法上的不同

    2024-04-24 13:16:01       13 阅读
  8. 20240423-线程基础

    2024-04-24 13:16:01       11 阅读