A Decade’s Battle on Dataset Bias: Are We There Yet

一、研究背景
1.由于数据集的重要性,数据偏差也引起了人们的注意。
2.如今的数据集规模更大、更丰富、偏差更小,促使神经网络发现概念、抽象、模式、偏差的能力也随之增强。
3.在大规模数据集上(ImageNet)学习到的神经网络表示是可转移的,因此将预训练表征迁移到下游任务中成为一种常见做法。
4.不同于域自适应任务,数据集分类任务更难以区分。
5.数据集人口、地理偏差存在负面社会影响。

二、研究动机
1.哪怕是用人类难以区分来源的图片或是用自监督训练得到的模型,可以取得极好的数据集分类准确率。
2.扩增样本数量和进行数据增强可以提升数据集分类准确率,这意味着网络通过寻找数据集特有模式(偏差)来进行数据集分类;用无偏数据构建伪造的数据集分类任务时,由于网络只能通过记忆能力进行分类,数据增强和扩充反而会起到负作用。
3.推测:通过数据集分类习得的表征携带者可转移到图像分类任务中的语义信息,因此数据集分类可以促进网络的性能提升。

三、实验结果
1.更大的模型并没有带来更多的收益,更多的数据会提升模型性能,所以模型并没有试图记忆数据(模型规模扩大会使记忆能力增强,更多的数据会使记忆难度提升);推测通过数据集分类学习到可泛化、可迁移的语义特征。
2.用损坏的图像仍能进行准确的数据集分类,因此数据集分类的能力并不源自人眼不可见的低级特征。
3.捕获数据集偏差的能力可能是深度神经网络固有的,而不是由特定组件引起的。

相关推荐

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-18 07:28:03       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-18 07:28:03       100 阅读
  3. 在Django里面运行非项目文件

    2024-03-18 07:28:03       82 阅读
  4. Python语言-面向对象

    2024-03-18 07:28:03       91 阅读

热门阅读

  1. Llama 2: 深入探讨ChatGPT的开源挑战者

    2024-03-18 07:28:03       41 阅读
  2. Spring Cloud - Eureka版-学习理解

    2024-03-18 07:28:03       44 阅读
  3. vue2和vue3的区别

    2024-03-18 07:28:03       41 阅读
  4. SpringMVC总结二

    2024-03-18 07:28:03       44 阅读
  5. 计算机等级考试:信息安全技术 知识点十二

    2024-03-18 07:28:03       41 阅读
  6. Opencv使用数据增强中斜矩形裁剪成正矩形的方法

    2024-03-18 07:28:03       42 阅读
  7. 在 Nginx 中将 HTTP 重定向到 HTTPS

    2024-03-18 07:28:03       40 阅读
  8. 蓝桥杯刷题--python-22-dfs-bfs

    2024-03-18 07:28:03       43 阅读