人工智能_大模型044_模型微调004_随机梯度下降优化_常见损失计算算法_手写简单神经网络_实现手写体识别---人工智能工作笔记0179

2024-04-30 06:08:02
开发
9

然后对于,梯度下降,为了让训练的速度更好,更快的下降,又做了很多算法,可以看到

这里要知道Transformer中最常用的Adam 和 AdamW这两种算法.

当然，这些算法都是用于优化神经网络中的参数，以最小化损失函数。下面我会尽量以通俗易懂的方式解释它们的原理和适用场景。
1. **L-BFGS（Limited-memory BFGS）**：
   - **原理**：L-BFGS是一种拟牛顿方法，用于解决大规模的优化问题。
它使用历史梯度来近似Hessian矩阵（即目标函数的二阶导数矩阵），以此来更新参数。
   - **适用场景**：当数据集不是特别大时，L-BFGS表现很好，因为它需要存储过去的
一些梯度信息。但对于特别大的数据集或网络，其内存需求可能会变得太大。
2. **Rprop（Resilient Propagation）**：
   - **原理**：Rprop是一种基于梯度的优化算法，但与其它算法不同的是，它不使用
学习率。它通过自适应调整每个参数的学习步长来优化网络。
   - **适用场景**：Rprop特别适用于训练神经网络，尤其是当网络包含多个局部最
小值时。但由于其不使用全局学习率，它可能不如其它算法那样易于实现或调整。
3. **RMSprop**：
   - **原理**：RMSprop是Geoff Hinton提出的一种自适应学习率方法。它通过计算梯度
平方的移动平均来调整每个参数的学习率。
   - **适用场景**：RMSprop在处理非平稳

原文地址:https://blog.csdn.net/lidew521/article/details/138314933 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1785068550373904384.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部