优化器算法SGD、Adam、AdamW等

2024-03-19 21:18:02
开发
15

文章目录

假设有：

待优化的目标函数为 $f (w)$ ，使用优化算法来最小化目标函数 $f(w):argmin_wf(w)$
在时间步t的梯度 $g_t= \nabla f(w_t)$
模型参数为 $w$ ， $w_t$ 为时刻t的参数， $w_{t+1}$ 是时刻t+1的参数
在时刻t的学习率为 $\alpha_t$
平滑项 $\epsilon$

SGD

SGD(Stochastic gradient descent)只考虑当前时间步的梯度，其更新方式为
$w_{t+1} = w_t - \alpha_t g_t$
pytorch 对应的类为torch.optim.SGD

optimizer = torch.optim.SGD(model.parameters(), lr=0.1)
optimizer.zero_grad()
loss_fn(model(input), target).backward()
optimizer.step()

SGD with momentum

对于非凸目标函数，可能会存在多个局部极小值，使用SGD求解时，在这些局部极小值附近的梯度很小，使得优化算法陷入到局部最优解。

而带动量的SGD算法不仅仅使用当前梯度，也会考虑到历史梯度，设动量参数为 $\mu$ ，其参数更新方式为：
$b_t = \mu b_{t-1} + g_t \\ w_{t+1} = w_t - \alpha_t b_t$
pytorch 对应的类也为torch.optim.SGD，可以设置momentum参数。

optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)
optimizer.zero_grad()
loss_fn(model(input), target).backward()
optimizer.step()

SGD with Nesterov Acceleration

SGD with Nesterov Acceleration是对SGD with momentum的改进，先根据累积梯度进行一次参数更新。
$g_t = \nabla f(w_{t} - \mu b_{t-1}) \\ b_t = \mu b_{t-1} + g_t \\ w_{t+1} = w_t - \alpha_t b_t$
pytorch 对应的类也为torch.optim.SGD，在设置momentum参数后，设置nesterov参数为True。

AdaGrad

AdaGrad(Adaptive Gradient Algorithm)是在每次迭代时自适应地调整每个参数的学习率，出自2021年的论文《Adaptive Subgradient Methods for Online Learning and Stochastic Optimization》。

若有d个参数
$v_t = diag(\sum^t_{i=1}g^2_{i,1}, \sum^t_{i=1}g^2_{i,2}, \cdots,\sum^t_{i=1}g^2_{i,d} ) \\ w_{t+1} = w_t - \alpha_t \frac{g_t}{\sqrt{v_t} + \epsilon}$
相比于SGD，每个参数的学习率是会随时间变化的，即对于第j个参数，学习率为 $\frac{\alpha_t}{\sqrt{v_{t,j}} + \epsilon} = \frac{\alpha_t}{\sqrt{sum^t_{i=t}g_{i,j}^2} + \epsilon}$ 。并且AdaGrad使用了二阶动量。

pytorch 对应的类为torch.optim.Adagrad

RMSprop

AdaGrad考虑过去所有时间的梯度累加和，所以学习率可能会趋近于零，从而使模型在没有找到最优解时就终止了学习。 RMSprop对AdaGrad进行了改进，该算法出自 G. Hinton的 lecture notes 。RMSprop相比于AdaGrad只关注过去一段时间窗口的梯度平方和：
$v_t = \beta_2 v_{t-1} + (1- \beta_2) diag(g^2_t) \\ w_{t+1} = w_t - \alpha_t \frac{g_t}{\sqrt{v_t} + \epsilon}$
pytorch对应的类为torch.optim.RMSprop

AdaDelta

AdaGrad考虑过去所有时间的梯度累加和，所以学习率可能会趋近于零，从而使模型在没有找到最优解时就终止了学习。 AdaDelta对AdaGrad进行了改进，该算法出自论文《ADADELTA: An Adaptive Learning Rate Method》。AdaDelta相比于AdaGrad有两个改进：

只关注过去一段时间窗口的梯度平方和： $v_t = \beta_2 \cdot v_{t-1} + (1- \beta_2) \cdot diag(g^2_t)$ （指数移动平均），一般取 $\beta_2 = 0.9$ （相当于关注过去10个时间步的梯度平方和）
引入每次参数更新差值 $\Delta \theta$ 的平方的指数移动平均： $\Delta X^2_{t-1} = \beta_1 \Delta X^2_{t-2} + (1-\beta_1) \Delta \theta_{t-1} \odot \Delta \theta_{t-1}$

$v_t = \beta_2 v_{t-1} + (1- \beta_2) diag(g^2_t) \\ \Delta X^2_{t-1} = \beta_1 \Delta X^2_{t-2} + (1-\beta_1) \Delta \theta_{t-1} \odot \Delta \theta_{t-1} \\ w_{t+1} = w_t - \alpha_t \frac{\sqrt{\Delta X^2_{t-1} + \epsilon}}{\sqrt{v_t} + \epsilon}g_t$

pytorch对应的类为torch.optim.AdaDelta

Adam

Adam出自论文《Adam: A Method for Stochastic Optimization》，它同时考虑了一阶动量和二阶动量。（公式中的纠正项 $\hat m_t$ 和 $\hat v_t$ 只在初始阶段校正）
$m_t = \beta_1m_{t-1} + (1-\beta_1)g_t \\ v_t = \beta_2 v_{t-1} + (1- \beta_2) diag(g^2_t) \\ \hat m_t = \frac{m_t}{1-\beta_1^t} \\ \hat v_t = \frac{v_t}{1-\beta_2^t} \\ w_{t+1} = w_t - \alpha_t \frac{\hat m_t}{\sqrt{\hat v_t} + \epsilon}$
pytorch对应的类为torch.optim.Adam

AdamW

AdamW是对Adam的改进，出自论文《Decoupled Weight Decay Regularization》，现在大模型训练基本上都是使用AdamW优化器。

AdamW改进的主要出发点是 $L_2$ 正则和权重衰减(weight decay)对于自适应梯度如Adam是不一样的，所以作者们对Adam做了如下图的修改。

在这里插入图片描述

pytorch对应的类为torch.optim.AdamW

参考资料

pytorch优化算法
知乎文章：从 SGD 到 AdamW —— 优化算法的演化
https://www.fast.ai/posts/2018-07-02-adam-weight-decay.html
Cornell University Computational Optimization Open Textbook
神经网络与深度学习
视频：从SGD到AdamW(后面的两个视频还讲了为什么transformer用SGD的效果不好)

原文地址:https://blog.csdn.net/beingstrong/article/details/136764477 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1770077270413807616.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部