【机器学习300问】87、学习率这种超参数在优化时选择随机搜索方法，为什么要在对数尺度范围进行随机搜索？

2024-05-12 22:44:03
开发
16

在超参数优化过程中，对数尺度范围进行随机采样对于某些类型的超参数来说是非常有效的，特别是当超参数的有效值跨越几个数量级时。学习率就是这样一种超参数，它可以从非常小（例如 $10^{-6}$ ）到相对大的值（例如 $10^{-1}$ ），而这些值往往不会均匀分布在这个范围内。

一、为什么要选取对数尺度？

范围广泛：对数尺度能够覆盖广泛的数值范围，确保超参数搜索不会错过任何可能的尺度。例如，学习率可能在 $10^{-6}$ 到 $10^{-1}$ 范围内都有可能得到良好表现。

均匀采样：在对数尺度上进行均匀采样可以确保每个数量级的值都有同等的可能性被选中。这因为超参数的最优值可能存在于任何的数量级上。

敏感性：对于学习率这样的超参数，小的改变（如从 $10^{-3}$ 到 $10^{-2}$ ）在对数尺度上是线性的，但在绝对尺度上其影响是十倍的。因此，在对数尺度上进行搜索能够更细致地探索那些对模型性能有显著影响的值。

二、对数尺度随机搜索的步骤

（1）设定超参数范围

首先确定超参数的范围。对于学习率，你可能会选择一个范围，如 $10^{-6}$ 到 $10^{-1}$ 。我们以此作为学习率的线性尺度上的初步探索范围。

（2）选择优化策略：对数尺度随机搜索

转换范围到对数尺度：将上述线性范围转换到对数尺度上，意味着我们将考虑学习率的对数作为采样对象。学习率的对数范围变为-6到-1（因为 $log(10^{-6})=-6$ 且 $log(10^{-1})=-1$ ）
均匀随机采样：在对数尺度的-6到-1之间进行均匀随机采样。例如，我们可以生成一系列随机数，这些随机数在这个对数区间内均匀分布。假设我们随机选取了一个值x，其中 $-6\leqslant x\leqslant -1$
转换回原始尺度：将采样的对数值通过指数函数转换回原始的学习率值。如果随机抽取的对数值是x，则对应的学习率为 $10^x$ 。比如，如果 $x=-3.5$ ，那么学习率将是 $10^{-3.5}$

（3）评估与选择

使用每一组随机采样得到的学习率，训练模型并在验证集上评估其性能。将性能结果（通常是损失函数的值、准确率、F1分数或其他相关指标）记录下来，并确定哪个学习率在验证集表现最佳。

（4）重复实现缩小范围

根据已有的评估结果，重新考虑学习率的对数尺度范围，如果发现最佳学习率集中在某一小范围内，可以进一步缩小学习率的对数尺度搜索范围，比如：如果发现最佳学习率在-4到-2之间，下一轮搜索可以集中在这个更小的范围内。然后重复步骤（2）至（4），进行多轮迭代，直到找到满意的学习率或达到预设的停止条件（如性能提升不明显、达到预设的迭代次数等）。

原文地址:https://blog.csdn.net/qq_39780701/article/details/138768276 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1789667861023821824.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部