局部最小VS全局最小
使用迭代优化算法求解,一般只能保证找到局部最小值。
凸函数优化
1.如果代价函数f是凸,且限制集合C是凸,那么就是凸优化问题,局部最小一定是全局最小
2.严格凸优化问题有唯一的全局最小
凸
1.线性回归
2.softmax
非凸
其他均是,MLP、CNN、RNN、attention…
梯度下降
最简单的迭代求解算法
随机梯度下降
比梯度下降成本低
小批量随机梯度下降
1.计算单样本的梯度很难完全利用硬件资源
冲量法
使用平滑过的梯度对权重更新,beta的常见取值[0.5,0.9,0.95,0.99]
总结
1.深度学习模型大部分是凸
2.小批量随机梯度下降是最常用的优化算法
3.冲量对梯度做平滑
4.Adam对梯度做平滑,且对梯度各个维度值做重新调整