【弱监督时间动作定位】Weakly Supervised Action Selection Learning in Video 论文阅读

Weakly Supervised Action Selection Learning in Video 论文阅读

Abstract
1. Introduction
2. Related Work
3. Approach
- 3.1. Base Classifier
- 3.2. Action Selection Learning in Video
4. Experiments
5. Conclusion

文章信息：
在这里插入图片描述
发表于：CVPR 2021
原文链接：https://arxiv.org/abs/2105.02439
源码：https://github.com/layer6ai-labs/ASL

Abstract

在视频中定位动作是计算机视觉中的核心任务。弱监督时间定位问题研究是否可以仅通过视频级标签来充分解决此任务，从而显著减少所需的昂贵且易出错的注释量。一种常见的方法是训练帧级分类器，其中选择具有最高类别概率的帧来进行视频级预测。然后使用帧级激活来进行定位。然而，由于缺乏帧级注释，分类器会对每一帧施加类别偏差。为了解决这个问题，我们提出了动作选择学习（ASL）方法，以捕捉动作的一般概念，即我们称之为“动作性”的属性。在ASL下，模型通过一个新的无类别任务进行训练，以预测分类器将选择哪些帧。通过实验证明，ASL在两个流行的基准测试THUMOS-14和ActivityNet-1.2上相较于领先的基线方法分别提高了10.3%和5.7%。我们进一步分析了ASL的特性，并展示了动作性的重要性。

1. Introduction

在这里插入图片描述

图1：（a）“板球击球”动作的上下文错误，由于存在所有板球相关物品，但缺乏实际动作。（b）“板球投球”动作的动作性错误，由于场景不典型，尽管有动作存在。

时间动作定位是计算机视觉中的一项基本任务，在视频理解和建模中具有重要应用。弱监督定位问题研究是否可以仅通过视频级标签而不是帧级注释来充分解决此任务。这显著减少了全监督设置中所需的昂贵且易出错的标注，但大大增加了问题的难度。一个标准方法是应用多实例学习来学习实例上的分类器，其中一个实例通常是一帧或一个短片段。分类器通过实例类激活序列上的top-k聚合进行训练以生成视频概率。然后通过利用类激活序列来生成起始和结束预测进行定位。然而，在许多情况下，top-k中选择的实例包含了对预测有用的信息，但并不是实际的动作。此外，使用top-k选择时，分类损失会鼓励分类器忽略那些难以分类的动作实例。这两个问题都可能显著阻碍定位的准确性，并且源于分类器无法捕捉实例中动作的内在属性。现有文献中将这种属性称为“动作性”。

忽略动作性可能导致两种主要错误类型：背景错误和动作性错误。背景错误发生在分类器在不包含动作但包含指示整体视频类别的背景的实例上激活时【19, 14】。图1(a)展示了一个背景错误的例子。在这里，板球运动员正在检查板球场地。这个实例清楚地表明视频是关于板球的，并且分类器高置信度地预测为“板球击球”。然而，在这个特定实例中并没有发生击球动作，将其包含在“板球击球”的定位中会导致错误。动作性错误发生在分类器未能在包含动作的实例上激活时。这通常发生在有显著遮挡或不常见场景的困难实例中。图1(b)展示了一个动作性错误的例子。动作是“板球投球”，但分类器未能激活，因为场景是在室内，与通常的板球场景不同。

该领域的最新领先工作【25, 14, 24】提出了一种注意力模型，用于过滤背景，然后在过滤后的实例上训练分类器以预测类别概率。这种方法的缺点是将重要的上下文可能作为背景被移除，使得分类器的学习更加困难。

我们的动机是设计一个学习框架，既能利用上下文信息进行类别预测，又能学习识别用于定位的动作实例。我们从监督设置中看到，领先的目标检测【9, 27, 4】和时间定位【17, 18, 16】方法利用与类别无关的提议网络来生成高度准确的预测。这表明，一般的物体性/动作性属性可以在各种类别中成功学习。为此，我们提出了一种新方法，称为动作选择学习（Action Selection Learning，ASL），其中类别无关的动作性模型学习预测分类器在top-k集中选择的帧。在推断期间，我们将动作性模型的预测与类别激活序列相结合，并显示出显著的定位精度提升。具体来说，ASL在两个流行的基准测试THUMOS-14和ActivityNet-1.2上达到了新的最先进水平，相比领先的基线分别提高了10.3%和5.7%的mAP。我们进一步分析了模型的性能，并展示了动作性方法的优势。

2. Related Work

弱监督时间动作定位
弱监督设置中的一个显著方向是利用类别激活序列来改进定位。UntrimmedNet [32] 侧重于使用类别激活改进实例选择步骤。Hide-and-seek [30] 应用实例丢弃以减少分类器对特定实例的依赖。W-TALC [26] 引入共活动相似性损失以捕捉类别间和视频间的关系。3C-Net [23] 采用中心损失来减少类别间的变化，同时应用额外的动作计数信息进行监督。聚焦于类别激活可能容易受到上下文错误的影响，因此有一条并行的研究线探索如何识别上下文实例。STPN [24] 通过引入稀疏性约束的类别无关注意力模型扩展了UntrimmedNet。BM [24] 使用自注意力分离动作和上下文实例。CMCS [19] 假设上下文有一个静止的先验，并利用它来建模上下文实例。BaSNet [14] 明确建模了一个单独的上下文类别，在推理过程中用于过滤实例。DGAM [28] 训练变分自编码器来建模基于注意力的类别无关实例分布，以分离上下文和动作实例。最近，TSCN [37] 和 EM-MIL [22] 提出了双流架构。TSCN 分离了RGB和流模块，并从结合两个流预测生成的伪标签中学习。EM-MIL 介绍了一个关键实例和一个分类模块，交替训练以保持多实例学习假设。

动作性学习

我们的方法受监督设置中相关工作的启发，其中一个常见的设计选择是学习一个类别无关的模块来生成提案，然后由分类器标注[17, 18, 16]。早期的工作将动作性定义为与上下文分离的通用但有意的动作的可能性[7]，并将其应用于图像[7]和视频[34]设置中的人类活动检测。一个相关的概念是“趣味性”，被提出用于在像素级别识别动作[31]。动作识别的研究表明，通用属性在动作类别中普遍存在，可以用于识别[21]。类似的概念已经在跟踪应用中证明了成功[15]。最后，在目标检测中，领先的方法大量利用类别无关的提案网络来首先识别高“目标性”的区域[9, 27, 4]。

3. Approach

我们将一个视频视为一组 $T$ 个实例 ${x_1,...,x_T\}$ ，为了简化符号表示，省略了视频索引。一个实例可以是一个帧或固定间隔的片段，由特征向量 $x_t\in\mathbb{R}^d$ 表示。在弱监督的时间定位任务中，每个实例 $x_t$ 要么包含来自 $C$ 类中的一个动作，要么是背景，但我们对此未知。相反，我们被给定视频级别的类别 $Y\subseteq\{1,...,C\}$ ，这是视频中所有实例类别的并集。弱监督的时间定位任务要求我们能否利用视频级别的类别信息在各个实例中定位动作。在本节中，我们首先在3.1节概述分类框架，然后在3.2节描述我们的方法。

3.1. Base Classifier

我们定义一个视频分类器来预测目标视频级别的类别，如下：

在这里插入图片描述
其中 $F$ 是应用于整个视频的神经网络，而 $F_{c,t}(\cdot)$ 表示在类别 $c$ 和实例 $x_t$ 上的输出。对于所有 $T$ 个实例，我们将 $F_{c,t}(\cdot)$ 称为类别激活序列 (CAS)。多实例学习 [5] 通常用于训练分类器，其中对每个类别的 CAS 进行 top- ${k}$ 池化，以聚合最高激活的实例并进行视频级别的预测。我们将每个类别的 top- $k$ 实例集表示为 $\mathcal{T}^c$ 。

在这里插入图片描述

其中， $k$ 是一个超参数， $h_{c,t}$ 是用于选择顶级实例的实例选择概率。在先前的工作中，选择概率通常直接设置为 CAS，即 $h_{c,t} = s_{c,t}$ 。然而，我们在此进行有意的区分，以便在接下来的部分中引入动作性。对于选定的实例集 $\mathcal{T}^c$ ，我们应用聚合操作（例如均值池化）来进行视频级别的类别预测：

在这里插入图片描述

最后，该模型通过多实例学习目标进行优化：

在这里插入图片描述

3.2. Action Selection Learning in Video

上一节介绍的分类器优化了分类目标，该目标鼓励在 top- $k$ 集合中选择仅强烈支持目标视频类别的实例。这可能导致包含强上下文支持但不包含动作的实例被纳入（动作性错误），以及包含动作但难以预测的实例被排除（上下文错误）。这两个问题不会影响视频分类准确性，但会显著影响定位。为了解决这个问题，我们提出了一种新的动作选择学习（ASL）方法，以捕捉每个实例的类无关动作性特性。ASL 的主要思想是用于预测的 top- $k$ 集合 $\mathcal{T}^c$ 可能会捕捉到上下文和动作实例。然而，上下文信息是高度类特定的，而动作在各类之间具有相似的特征。因此，通过训练一个独立的类无关模型来预测某个实例是否会出现在任何类别的 top- $k$ 集合中，我们可以有效地捕捉包含动作的实例并滤除上下文。我们首先定义一个神经网络动作性模型 $G :$
在这里插入图片描述

对于一个实例来说，要包含特定的动作，它应该同时包含相应类别的证据和动作性的证据。如前所述，仅有类别证据是不够的，可能会导致上下文错误和动作性错误。为了考虑这两种属性，我们扩展了实例选择函数：

在这里插入图片描述

这个选择函数结合了两个模型的信念，可以通过多种方式实现。在这项工作中，我们使用凸组合融合分数，即 $h(a_t, s_{c,t}) = \beta a_t + (1-\beta) s_{c,t}$ ，并将其他可能的架构留待未来研究。计算出 $h_{c,t}$ 后，我们像之前一样，选择具有最高 $h_{c,t}$ 值的前 $k$ 个实例来获得 $\mathcal{T}^c$ 。

为了训练动作性模型 $G$ ，我们设计了一项新任务来预测给定的实例 $x_t$ 是否会出现在任何真实类别的前 $k$ 集中。由于上下文高度依赖于类别，我们假设 $G$ 只有通过学习捕捉在各个类别中普遍存在的动作特征才能在这项任务中表现良好。这个假设进一步受到以下事实的激励：许多领先的监督定位方法首先生成与类别无关的提案，然后为其预测类别【17,18,16】。这些模型的高准确性表明，提案网络能够独立于类别地学习一般的动作性特征，我们在这里的目标也是如此。我们首先将实例划分为正集合和负集合：

在这里插入图片描述
其中正集合 $\mathcal{T}_\mathrm{pos}$ 包含出现在真实类别 $Y$ 的前 $k$ 个实例中的所有实例的并集，而负集合 $\mathcal{T}_\mathrm{neg}$ 包含所有其他实例。然后我们训练 $G$ 来预测每个实例是否在正集合或负集合中。在我们的模型中，分类器和动作性网络通过实例选择函数连接在一起。根据经验，我们观察到在训练过程中，随着分类准确率的提高，更好的实例被选择进入正集合和负集合。这改进了动作性模型，进而改进了分类器的前 $k$ 实例选择，从而进一步提高分类准确率。因此，这两个模型是互补的，当添加动作性网络时，我们发现分类和定位准确率都得到了提高。

由于我们的目标正负集合同时包含上下文和动作实例，二元包含标签可能会有噪音。这尤其发生在训练初期，当分类准确率较低且选出的前几实例不准确时。传统的交叉熵分类损失在预测与真实值偏差较大时会给予较大惩罚。这在标签干净时是一个理想特性，使模型能够快速收敛[38]。然而，最近的研究表明，在噪声标签下，交叉熵会导致性能较差，因为高惩罚会迫使模型对噪声进行过拟合[8, 38]。为了解决这个问题，提出了一种广义交叉熵损失，在高度不一致的区域软化惩罚[38]。我们在此采用这种损失来改进动作性模型的泛化能力：

在这里插入图片描述

其中正集合 $T_\mathrm{pos}$ 包含出现在真实类别 $Y$ 的前 $k$ 实例的所有实例的并集，而负集合 $\mathcal{T}_\mathrm{neg}$ 则包含所有其他实例。然后我们训练 $G$ 以预测每个实例是否在正集合或负集合中。在我们的模型中，分类器和动作性网络通过实例选择函数联系在一起。经验表明，在训练过程中，随着分类准确率的提高，更好的实例被选入正集合和负集合。这改善了动作性模型，从而为分类器选择更好的前 $k$ 实例，进一步提高了分类准确率。两个模型因此是互补的，我们展示了当加入动作性网络时，分类和定位准确率都有所提高。

在这里插入图片描述
图2：ASL模型架构和示例。(a) 对于每个实例 $x_t$ ，分类器 $F_{c,t}$ 预测类别激活 $s_{c,t}$ ，动作性模型 $G_t$ 预测动作性分数 $a_t$ 。类别激活和动作性通过实例选择函数 $h$ 结合得到实例选择概率 $h_{c,t}=h(a_t,s_{c,t})$ 。选择前 $k$ 个具有最高选择概率的实例加入 $\mathcal{T}^c$ ，并聚合在一起生成视频的类别预测 $p_c$ 。最后，跨越真实类别 $Y$ 的前 $k$ 个实例的并集用于生成动作性模型的目标集 $\tau_\mathrm{pos}$ 和 $\tau_\mathrm{neg}$ 。(b) 示例说明了如何计算目标集 $\tau_\mathrm{pos}$ 和 $\tau_\mathrm{neg}$ 。视频有 $T = 7$ 个实例， $C = 4$ 个类别， $k = 3$ 。对于每个类别，我们选择具有最高动作选择概率的前3个实例，用黄色单元格表示。跨越真实类别（ $c\in Y$ ）的选择实例的并集得到 $\mathcal{T}\mathrm{pos}$ ，用蓝色表示。所有其他实例构成 $\mathcal{T}\mathrm{neg}$ ，用红色表示。

提出的ASL架构在图2(a)中进行了总结。图2(b)还展示了一个玩具示例，说明如何计算正集合 $\mathcal{T}_\mathrm{pos}$ 和负集合 $\mathcal{T}_\mathrm{neg}$ 。该视频有 $T = 7$ 个实例和 $C = 4$ 个类别，其中两个在真实标签中 $Y=\{3,4\}$ 。此外， $k = 3$ ，因此对于每个类别，选择具有最高实例选择概率 $h(a_t,s_{c,t})$ 的前3个实例，如黄色单元格所示。选择的真实类别实例的并集形成 $\mathcal{T}_\mathrm{pos}=\{x_1,x_2,x_3,x_4\}$ ，如红色所示，所有其他实例形成 $\mathcal{T}_\mathrm{neg}=\{x_5,x_6,x_7\}$ ，如蓝色所示。为了成功预测每个列表中的实例，动作性模型必须找到 $\mathcal{T}_\mathrm{pos}$ 中所有实例之间的共性，并将它们与 $\mathcal{T}_\mathrm{neg}$ 区分开来。正如我们在实验部分所展示的，这种共性就是动作性的存在，这显著有助于定位任务。

4. Experiments

在这里插入图片描述

5. Conclusion

我们提出了用于弱监督视频定位的动作选择学习（ASL）方法。ASL 结合了一个类别无关的动作性网络，该网络学习与类别无关的一般动作概念。我们通过一个新颖的预测任务来训练动作性网络，即分类哪些实例会被分类器选择进入前k集合。一旦训练完成，该网络本身就非常有效，并且可以在分类器提供的最小类别信息的情况下准确地定位动作。从经验上看，ASL 展现了卓越的准确性，显著超越了最近的领先基准。未来的工作包括进一步研究动作性及其在其他相关视频领域的泛化。