激活学习:使用较少数据训练神经网络
引言
在监督式深度学习中,一个主要问题是标记训练数据的稀缺。激活学习通过选择最有价值的训练样本来减少所需标记数据量,从而节省时间和成本。
激活学习是什么?
激活学习旨在通过尽可能少的标签样本实现最大的性能提升,特别是当应用于现代深度学习模型时,这一策略被称为深度激活学习。
激活学习查询策略
- 信息量策略:选择模型在输出类别概率上最不确定的样本。
- 代表性策略:选择能代表整个训练数据池的样本。
- 混合策略:将信息量和代表性结合起来,比如"多样化小批量激活学习"(DBAL)策略。
实践:实现多样化小批量激活学习(DBAL)
通过Python和预训练的ResNet18深度学习模型,我们可以实现基于DBAL的激活学习查询策略。这包括使用边缘不确定性和加权K-means聚类从未标注的图片数据池中选择样本。
结论
激活学习通过选择最重要的样本来减少所需的标记训练数据量。通过结合信息量、代表性或两者的混合来评估训练样本的重要性,我们可以有效地实现激活学习策略。
参考文献
- [1] R. Nowak和S. Hanneke, 《激活学习:从理论到实践》, 2019。
- [2] P. Ren等, 《深度激活学习综述》, 2021。
- [3] S.-J. Huang等, 《通过查询信息及典型示例的激活学习》, 2014。
- [4] O. Sener和S. Savarese, 《卷积神经网络的激活学习:一个核心集方法》, 2018。
- [5] D. Mount, 《贪心近似算法:k-Center问题》, 2017。
- [6] F. Zhdanov, 《多样化小批量激活学习》, 2019。
- [7] O. M. Parkhi等, 《猫和狗》,2012。
此文章概述了激活学习的理论与应用,并通过实例展示了如何使用Python实现一个基于DBAL策略的激活学习查询策略。