PyTorch -- 最常见激活函数的选择

2024-06-14 01:54:02
开发
7

首先，简单复习下什么是梯度：梯度是偏微分的集合
- 举例说明：对于 $y^2-x^2: \nabla z= (\frac{\partial z}{\partial x}, \frac{\partial z}{\partial y}) = （2x, 2y）$
获取极小值 minima 的方法核心： $\theta_{t+1}=\theta_t-\alpha\nabla f(\theta_t)$

【torch.sigmoid()】 $\text{Sigmoid}(x)=\frac{1}{1+e^{-x}}$
- 优点：连续函数，便于求导，可以用作输出层
- 缺点：在变量取绝对值非常大时会出现饱和现象(函数会变得很平)，且对输入的微小改变会变得不敏感；在反向传播时，当梯度接近于0，容易出现梯度消失，从而无法完成深层网络训练
【torch.tanh()】 $\text{Tanh}(x) = \frac{e^x-e^{-x}}{e^x+e^{-x}}$ , sigmoid 经过缩放平移获得
- 优点：同 sigmoid 且均值是0 (更好)
- 缺点：仍存在饱和问题
【torch.relu()】 $\text{ReLU}(x)=\max(0,x)$
- 优点：高效；在x>0区域上，不会出现梯度饱和、梯度消失
- 缺点：Dead ReLU Problem (在x<0时，梯度为0：这个神经元及之后的神经元梯度永远为0，不再对任何数据有所响应，导致相应参数永远不会被更新）

B站视频参考资料

原文地址:https://blog.csdn.net/CODE_RabbitV/article/details/139619360 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1801312083468488704.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

PyTorch -- 最常见激活函数的选择

相关推荐

最近更新

热门阅读