人工智能_大模型044_模型微调004_随机梯度下降优化_常见损失计算算法_手写简单神经网络_实现手写体识别---人工智能工作笔记0179

 

然后对于,梯度下降,为了让训练的速度更好,更快的下降,又做了很多算法,可以看到

这里要知道Transformer中最常用的Adam 和 AdamW这两种算法.

当然,这些算法都是用于优化神经网络中的参数,以最小化损失函数。下面我会尽量以通俗易懂的方式解释它们的原理和适用场景。
1. **L-BFGS(Limited-memory BFGS)**:
   - **原理**:L-BFGS是一种拟牛顿方法,用于解决大规模的优化问题。
它使用历史梯度来近似Hessian矩阵(即目标函数的二阶导数矩阵),以此来更新参数。
   - **适用场景**:当数据集不是特别大时,L-BFGS表现很好,因为它需要存储过去的
一些梯度信息。但对于特别大的数据集或网络,其内存需求可能会变得太大。
2. **Rprop(Resilient Propagation)**:
   - **原理**:Rprop是一种基于梯度的优化算法,但与其它算法不同的是,它不使用
学习率。它通过自适应调整每个参数的学习步长来优化网络。
   - **适用场景**:Rprop特别适用于训练神经网络,尤其是当网络包含多个局部最
小值时。但由于其不使用全局学习率,它可能不如其它算法那样易于实现或调整。
3. **RMSprop**:
   - **原理**:RMSprop是Geoff Hinton提出的一种自适应学习率方法。它通过计算梯度
平方的移动平均来调整每个参数的学习率。
   - **适用场景**:RMSprop在处理非平稳

相关推荐

最近更新

  1. TCP协议是安全的吗?

    2024-04-30 06:08:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-30 06:08:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-30 06:08:02       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-30 06:08:02       20 阅读

热门阅读

  1. CentOS 常见的命令

    2024-04-30 06:08:02       14 阅读
  2. Circuits--Sequential--Finite6

    2024-04-30 06:08:02       12 阅读
  3. 记录一下初次使用linux服务器的问题解决

    2024-04-30 06:08:02       10 阅读
  4. Visual Studio 2019 远程调试工具

    2024-04-30 06:08:02       11 阅读
  5. MySQL 高级 - 第四章 | 配置文件与系统变量

    2024-04-30 06:08:02       10 阅读
  6. 清理 Conda 和 pip 缓存

    2024-04-30 06:08:02       8 阅读
  7. 【 深度可分离卷积】

    2024-04-30 06:08:02       12 阅读