Supervised Contrastive Learning

paper	https://arxiv.org/abs/2004.11362
github	https://github.com/HobbitLong/SupContrast
个人博客位置	http://myhz0606.com/article/SupCon

1 Motivation

经典的自监督对比学习方法以instance discrimination作为pretext task。在这种方法中，会对batch的图片进行数据增强，以同一图片不同的数据增强为正例，其它作为负例，以自监督对比损失(式1)作为训练目标进行学习。

$\mathcal { L } ^ { s e l f } = \sum _ { i \in I } \mathcal { L } _ { i } ^ { s e l f } = - \sum _ { i \in I } \log \frac { \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { j ( i ) } / \boldsymbol { \tau } \right) } { \sum _ { a \in A ( i ) } \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { a } / \boldsymbol { \tau } \right) } \tag{1}$

$\in I \equiv \{ 1 . . . 2 N \}$ 是一个batch的索引。（这个batch有原始数据经过两个不同的数据增强形成）

$j (i)$ ：索引 $i$ 的positive sample的索引，对于每一个 $i$ 都有1个positive， $2 (N - 1)$ 个negative

$A(i)=I - \{i\}$

$z_i$ : 索引 $i$ 的图片表征

然而，在某些特定场景下，我们可能已经掌握了类别标签信息，或者至少能够明确哪些实例属于同一类别，而无需具体的类名。在这种情况下，直接沿用传统的自监督对比学习方法进行优化，显然未能充分利用这些宝贵的先验知识。

为了解决这一问题，supervised contrastive learning应运而生。其核心思想在于，将传统的自监督对比学习框架扩展至包含正例信息的场景中。该方法从同一类别中进行采样来构建正例，如下图所示。

在这里插入图片描述

2 Supervised Contrastive Learning(`SupCon`)

对于SupConbatch中第 $i$ 个sample，它不像式（1）中只有 $j (i)$ 而是由多个。假定在该batch中 $P (i)$ 为 $i$ 的所有positive的索引集合 $P(i)\equiv \{p\in A(i): \tilde{\boldsymbol y}_p = \tilde{\boldsymbol y}_i\}$ ，那么应当将式（1）改为

$\mathcal { L } ^ { sup} = \sum _ { i \in I } \mathcal { L } _ { i } ^ { sup } = - \sum _ { i \in I } \sum _ { p \in P(i) } \log \frac { \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p } / \boldsymbol { \tau } \right) } { \sum _ { a \in A ( i ) } \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { a } / \boldsymbol { \tau } \right) } \tag{2}$

但这样改有个小问题。同一个batch中对于不同 $i$ ， $P (i)$ 的大小可能不一致（可以理解成样本不均衡）。为了均衡不同大小的 $P (i)$ ，作者引入了一个normalize系数 $\frac{1}{|P(i)|}$ 。针对这个normalize系数的位置对式（2）提出了两种变体：

(一)outside supervised contrastive learning

$\mathcal { L } _ { o u t } ^ { s u p } = \sum _ { i \in I } \mathcal { L } _ { o u t , i } ^ { s u p } = \sum _ { i \in I } \frac { - 1 } { | P ( i ) | } \sum _ { p \in P ( i ) } \log \frac { \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p } / \tau \right) } { \sum _ { a \in A ( i ) } \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { a } / \tau \right) } \tag{3}$

(二)inside supervised contrastive learning

$\mathcal { L } _ { i n } ^ { s u p } = \sum _ { i \in I } \mathcal { L } _ { i n , i } ^ { s u p } = \sum _ { i \in I } - \log \left\{ \frac { 1 } { | P ( i ) | } \sum _ { p \in P ( i ) } \frac { \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p } / \tau \right) } { \sum _ { a \in A ( i ) } \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { a } / \tau \right) } \right\} \tag{4}$

这两个等式并不等价，由于 $\log(x)$ 是凹函数，根据Jensen’s inequality有 $\mathcal { L } _ { i n } ^ { s u p } \leq \mathcal { L } _ { o u t } ^ { s u p }$ 。可见 $\mathcal { L } _ { o u t } ^ { s u p }$ 是 $\mathcal { L } _ { i n } ^ { s u p }$ 的上界。分别分析式(3)和式(4)的梯度信息：（附录有完整求导过程）

$\frac { \partial \mathcal { L } _ { i } ^ { s u p } } { \partial \boldsymbol { z } _ { i } } = \frac { 1 } { \tau } \left\{ \sum _ { p \in P ( i ) } \boldsymbol { z } _ { p } ( P _ { i p } - X _ { i p } ) + \sum _ { n \in N ( i ) } \boldsymbol { z } _ { n } P _ { i n } \right\} \tag{5}$

其中 $\equiv \{ n \in A ( i ) : \tilde { \boldsymbol { y } } _ { n } \neq \tilde { \boldsymbol { y } } _ { i } \}$ ，且

$\begin{aligned} P _ { i p } &\equiv \frac { \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p } / \tau \right) } { \sum _ { a \in A ( i ) } \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { a } / \tau \right) } \\ X _ { i p } &\equiv \left\{ \begin{matrix} { \frac { \mathrm { e x p } ( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p } / \tau ) } { \underset { p ^ { \prime } \in P ( i ) } { \sum } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p ^ { \prime } } / \tau \right) } } & { , } & { \mathrm { i f } \ \mathcal { L } _ { i } ^ { s u p } = \mathcal { L } _ { i n , i } ^ { s u p } } \\ { \frac { 1 } { | P ( i ) | } } & { , } & { \mathrm { i f } \ \mathcal { L } _ { i } ^ { s u p } = \mathcal { L } _ { o u t , i } ^ { s u p } } \\ \end{matrix} \right. \end{aligned} \tag{6}$

可以发现，当 $z_p = \bar{z} = \frac{1}{|P(i)|}\sum_{p' \in P(i)} z_{p'}$ 时，两个loss等价。

$\left. X _ { i p } ^ { i n } \right| _ { \boldsymbol { z } _ { p } = \overline { { \boldsymbol { z } } } } = \frac { \exp \left( \boldsymbol { z } _ { i } \cdot \overline { { \boldsymbol { z } } } / \tau \right) } { \underset { p ^ { \prime } \in P ( i ) } { \sum } \exp \left( \boldsymbol { z } _ { i } \cdot \overline { { \boldsymbol { z } } } / \tau \right) } = \frac { \exp \left( \boldsymbol { z } _ { i } \cdot \overline { { \boldsymbol { z } } } / \tau \right) } { \left| P ( i ) \right| \cdot \exp \left( \boldsymbol { z } _ { i } \cdot \overline { { \boldsymbol { z } } } / \tau \right) } = \frac { 1 } { \left| P ( i ) \right| } = X _ { i p } ^ { o u t } \tag{7}$

从上述的梯度分析中，可以发现 $\mathcal { L } _ { o u t } ^ { s u p }$ 相比 $\mathcal { L } _ { i n } ^ { s u p }$ 用了positive的mean，训练过程应当更稳定，从作者的实验观察，outside比inside有较大的提升。

在这里插入图片描述

3 Experiment&Analysis

作者用分类准确率来评估SupCon的性能。

3.1 不同loss function的分类准确率

在这里插入图片描述

3.2 不同augmentation在ImageNet1K的分类准确率

此处作者给出了一些在不同augmentation的实验结果。

在这里插入图片描述

3.3 SupCon的训练稳定性

3.3.1 超参稳定性

作者分别评估不同Augmentation （RandAugment，AutoAugment，SimAugment，Stacked RandAugment）、Optimizer(LARS, SGD with Momentum and RMSProp）、learning rate模型的性能。实验发现，SupCon对Augmentation，Optimizer相对不敏感，对learning rate相对敏感。

总体上SupCon的超参稳定性远胜于CE。
在这里插入图片描述

3.4 模型对加噪数据的鲁棒性

As we know，深度学习模型拟合的是训练数据，其对OOD数据（out of domain）的鲁棒性是难以保证的。此节作者评估模型对加噪声后的数据的鲁棒性，评估的benchmark为ImageNet-C，评估指标为mCE(Mean Corruption Error)、rel.mCE (Relative Mean Corruption Error metrics)和ECE(Expected Calibration Error)

在这里插入图片描述

3.5 SupCon 训练参数的配置建议

3.5.1 Effect of Number Batch Size

batch size对SupCon有较多增益。作者实验中所用的batch size为6144。如果计算资源有限，可以结合moco的思路，用menory来缓存，作者实验发现，memory缓存的向量为8192，即使采用256的batch size也能达到79.1%的精度。
在这里插入图片描述

backbone为resnet50

3.5.2 Effect of Temperature in Loss Function

temperature越小会让式（3）softmax后的结果约接近onehot，此次的梯度强度大，有利于加速训练。但过小的temperature可能会带来数值不稳定的问题。可以配置为0.1
在这里插入图片描述

backbone为resnet50

3.5.3 Effect of Number Positives

作者测试positive number对分类精度的增益。测试表明：当positive number增加时，分类精度稳定增长。可能受限于成本，作者没有给出什么时候这个收益会达到bottleneck。

在这里插入图片描述

batch size=6144. 当positive-num=1时就是simCLR

小结

本文系统总结了Supervised Contrastive Learning这篇paper的主要内容。并对文中部分推导进行了补充，以便理解。若有不当之处，恳请指出。

拓展阅读

《Selective-Supervised Contrastive Learning with Noisy Labels》引入一个filter机制，用高置信的positive来做supervised contrastive learning，提升监督质量。

《Balanced Contrastive Learning for Long-Tailed Visual Recognition》提出了balanced supervised contrastive learning loss。1）通过class-averaging来平衡不均衡负类的梯度；2）通过class-complement方法实现每次梯度更新都会考虑所有类别信息。

《Learning Vision from Models Rivals Learning Vision from Data》将SupCon应用到合成数据表征学习领域。

附录

A. 两种SupCon两种形式loss的梯度分析

$\mathcal { L } _ { i n , i } ^ { s u p } = - \log \left\{ \frac { 1 } { | P ( i ) | } \sum _ { p \in P ( i ) } \frac { \mathrm { e x p } \left( \boldsymbol { z _ { i } } \boldsymbol { \cdot } \boldsymbol { z _ { p } } / \tau \right) } { \sum _ { a \in A ( i ) } \mathrm { e x p } \left( \boldsymbol { z _ { i } } \boldsymbol { \cdot } \boldsymbol { z _ { a } } / \tau \right) } \right\} \tag{A.1}$

$\mathcal { L } _ { o u t , i } ^ { s u p } = \frac { - 1 } { | P ( i ) | } \sum _ { p \in P ( i ) } \log \frac { \exp \left( \boldsymbol { z } _ { i } \cdot \boldsymbol { z } _ { p } / \tau \right) } { \sum _ { a \in A ( i ) } \exp \left( \boldsymbol { z } _ { i } \cdot \boldsymbol { z } _ { a } / \tau \right) } \tag{A.2}$

$\mathcal { L } _ { i n } ^ { s u p }$ 对 $z_i$ 的梯度

$\begin{aligned} { \frac { \partial \mathcal { L } _ { i n , i } ^ { s u p } } { \partial \boldsymbol { z } _ { i } } } & { { } = - \frac { \partial } { \partial \boldsymbol { z } _ { i } } \log \left\{ \frac { 1 } { | P ( i ) | } \sum _ { p \in P ( i ) } \frac { \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p } / \tau \right) } { \sum _ { a \in A ( i ) } \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { a } / \tau \right) } \right\} } \\ { } & { { } = \frac { \partial } { \partial \boldsymbol { z } _ { i } } \log \sum _ { a \in A ( i ) } \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { a } / \tau \right) - \frac { \partial } { \partial \boldsymbol { z } _ { i } } \log \sum _ { p \in P ( i ) } \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p } / \tau \right) } \\ &= \frac { 1 } { \tau } \frac { { \sum }_{a \in A ( i ) } \boldsymbol { z } _ { a } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { a } / \tau \right) } { { \sum } _ { a \in A ( i ) } \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { a } / \tau \right) } - \frac { 1 } { \tau } \frac { { \sum } _ { p \in P ( i ) }\boldsymbol { z } _ { p }\exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p } / \tau \right) } { { \sum } _ { p \in P ( i ) } \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p } / \tau \right) } \\ &= \frac{1}{ \tau } \frac { \sum _ { p \in P ( i ) } z _ { p } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p } / \tau \right) + { \sum } _ { n \in N ( i ) } \boldsymbol { z } _ { n } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { n } / \tau \right) } { \sum _ { a \in A ( i ) } \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { a } / \tau \right) } - \frac{1}{ \tau } \frac { \sum _ { p \in P ( i ) } z _ { p } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p } / \tau \right) } { \sum _ { p \in P ( i ) } \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p } / \tau \right) } \\ &= \frac { 1 } { \tau } \bigg\{ \sum _ { p \in P ( i ) } \boldsymbol { z } _ { p } ( P _ { i p } - X _ { i p } ^ { i n } ) + \sum _ { n \in N ( i ) } \boldsymbol { z } _ { n } P _ { i n } \bigg\} \end{aligned} \tag{A.3}$

其中

$\begin{aligned} { P _ { i p } \equiv \frac { \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p } / \tau \right) } { \sum _ { a \in A ( i ) } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { a } / \tau \right) } } \\ { X _ { i p } ^ { i n } \equiv \frac { \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p } / \tau \right) } { \sum _ { p ^ { \prime } \in P ( i ) } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p ^ { \prime } } / \tau \right) } } \\ \end{aligned} \tag{A.4}$

(二) $\mathcal { L } _ { o u , i} ^ { s u p }$ 对 $z_i$ 的梯度

$\begin{aligned}\frac{\partial\mathcal{L}_{out}^{sup}}{\partial\boldsymbol{z}_i}& =\frac{-1}{|P(i)|}\sum_{p\in P(i)}\frac\partial{\partial\boldsymbol{z}_i}\left\{\frac{\boldsymbol{z}_i\boldsymbol{\cdot}\boldsymbol{z}_p}\tau-\log\sum_{a\in A(i)}\exp\left(\boldsymbol{z}_i\boldsymbol{\cdot}\boldsymbol{z}_a/\tau\right)\right\} \\&=\frac{-1}{\tau|P(i)|}\sum_{p\in P(i)}\left\{\boldsymbol{z}_p-\frac{\sum_{a\in A(i)}\boldsymbol{z}_a\mathrm{exp}\left(\boldsymbol{z}_i\boldsymbol{\cdot}\boldsymbol{z}_a/\tau\right)}{\sum_{a\in A(i)}\exp\left(\boldsymbol{z}_i\boldsymbol{\cdot}\boldsymbol{z}_a/\tau\right)}\right\} \\&=\frac{-1}{\tau|P(i)|}\sum_{p\in P(i)}\left\{\boldsymbol{z}_p-\sum_{p^{\prime}\in P(i)}\boldsymbol{z}_{p^{\prime}}P_{ip^{\prime}}-\sum_{n\in N(i)}\boldsymbol{z}_nP_{in}\right\} \\&=\frac{-1}{\tau|P(i)|}\left\{\sum_{p\in P(i)}\boldsymbol{z}_p-\sum_{p\in P(i)}\sum_{p^{\prime}\in P(i)}\boldsymbol{z}_{p^{\prime}}P_{ip^{\prime}}-\sum_{p\in P(i)}\sum_{n\in N(i)}\boldsymbol{z}_nP_{in}\right\} \\&=\frac{-1}{\tau|P(i)|}\left\{\sum_{p\in P(i)}\boldsymbol{z}_p-\sum_{p^{\prime}\in P(i)}\sum_{p\in P(i)}\boldsymbol{z}_{p^{\prime}}P_{ip^{\prime}}-\sum_{n\in N(i)}\sum_{p\in P(i)}\boldsymbol{z}_nP_{in}\right\} \\&=\frac{-1}{\tau|P(i)|}\left\{\sum_{p\in P(i)}\boldsymbol{z}_p-\sum_{p^{\prime}\in P(i)}|P(i)|\boldsymbol{z}_{p^{\prime}}P_{ip^{\prime}}-\sum_{n\in N(i)}|P(i)|\boldsymbol{z}_nP_{in}\right\} \\&=\frac{-1}{\tau|P(i)|}\left\{\sum_{p\in P(i)}\boldsymbol{z}_p-\sum_{p\in P(i)}|P(i)|\boldsymbol{z}_pP_{ip}-\sum_{n\in N(i)}|P(i)|\boldsymbol{z}_nP_{in}\right\} \\&=\frac1\tau\left\{\sum_{p\in P(i)}\boldsymbol{z}_p(P_{ip}-X_{ip}^{out})+\sum_{n\in N(i)}\boldsymbol{z}_nP_{in}\right\}\end{aligned} \tag{A.5}$

其中

$\equiv \frac { 1 } { | P ( i ) | } \tag{A.6}$

B. SupCon具备隐式的Hard Sample Mining的能力

hard sample mining在表征学习上是一个非常常用的trick。SupCon有一个非常好的性质：它能隐式的做hard sample mining这个操作。

对于向量表征，我们通常会使用normalize这个操作。不妨记： $\boldsymbol{z_i} = \frac{\boldsymbol{w_i}}{\|\boldsymbol{w_i}\|}$ ，计算对 $w_i$ 的梯度：

$\frac { \partial \mathcal { L } _ {i } ^ { s u p } ( \boldsymbol { z } _ { i } ) } { \partial \boldsymbol { w } _ { i } } = \frac { \partial \boldsymbol { z } _ { i } } { \partial \boldsymbol { w } _ { i } } \frac { \partial \mathcal { L } _ { i } ^ { s u p } ( \boldsymbol { z } _ { i } ) } { \partial \boldsymbol { z } _ { i } } \tag{B.1}$

其中：

$\begin{aligned} { \frac { \partial \boldsymbol { z } _ { i } } { \partial \boldsymbol { w } _ { i } } } & { { } = \frac { \partial } { \partial \boldsymbol { w } _ { i } } \left( \frac { \boldsymbol { w } _ { i } } { \| \boldsymbol { w } _ { i } \| } \right) } \\ { } & { { } = \frac { 1 } { \| \boldsymbol { w } _ { i } \| } \mathbf { I } - \boldsymbol { w } _ { i } \left( \frac { \partial \left( 1 / \| \boldsymbol { w } _ { i } \| \right) } { \partial \boldsymbol { w } _ { i } } \right) ^ { T } } \\ { } & { { } = \frac { 1 } { \| \boldsymbol { w } _ { i } \| } \left( \mathbf { I } - \frac { \boldsymbol { w } _ { i } \boldsymbol { w } _ { i } ^ { T } } { \| \boldsymbol { w } _ { i } \| ^ { 2 } } \right) } \\ { } & { { } = \frac { 1 } { \| \boldsymbol { w } _ { i } \| } \left( \mathbf { I } - \boldsymbol { z } _ { i } \boldsymbol { z } _ { i } ^ { T } \right) } \\ \end{aligned} \tag{B.2}$

将B.2及式(5)带入B.1中有：

$\begin{aligned} { \frac { \partial \mathcal { L } _ { i } ^ { s u p } } { \partial \boldsymbol { w } _ { i } } } & { { } = \frac { 1 } { \tau \| \boldsymbol { w } _ { i } \| } \left( \mathbf { I } - \boldsymbol { z } _ { i } \boldsymbol { z } _ { i } ^ { T } \right) \left\{ \sum _ { p \in P ( i ) } \boldsymbol { z } _ { p } ( P _ { i p } - X _ { i p } ) + \sum _ { n \in N ( i ) } \boldsymbol { z } _ { n } P _ { i n } \right\} } \\ { } & { { } = \frac { 1 } { \tau \| \boldsymbol { w } _ { i } \| } \left\{ \sum _ { p \in P ( i ) } ( \boldsymbol { z } _ { p } - ( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p } ) \boldsymbol { z } _ { i } ) ( P _ { i p } - X _ { i p } ) + \sum _ { n \in N ( i ) } ( \boldsymbol { z } _ { n } - ( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { n } ) \boldsymbol { z } _ { i } ) P _ { i n } \right\} } \\ { } & { { }\stackrel{记作} = \left. \frac { \partial \mathcal { L } _ { i } ^ { s u p } } { \partial \boldsymbol { w } _ { i } } \right| _ { \mathrm { P ( i ) } } + \left. \frac { \partial \mathcal { L } _ { i } ^ { s u p } } { \partial \boldsymbol { w } _ { i } } \right| _ { \mathrm { N ( i ) } } } \\ \end{aligned} \tag{B.3}$

当 $\boldsymbol z_i$ 与 $\boldsymbol z_p$ 为easy sample时， $\boldsymbol z_i \boldsymbol z_p \simeq 1$ ，此时

$\| ( \boldsymbol { z } _ { p } - ( \boldsymbol { z } _ { i } \cdot \boldsymbol { z } _ { p } ) \boldsymbol { z } _ { i } \| = \sqrt { 1 - ( \boldsymbol { z } _ { i } \cdot \boldsymbol { z } _ { p } ) ^ { 2 } } \approx 0 \tag{B.4}$

当 $\boldsymbol z_i$ 与 $\boldsymbol z_p$ 为hard sample时， $\boldsymbol z_i \boldsymbol z_p \simeq 0$ ，此时 $\sqrt { 1 - ( \boldsymbol { z } _ { i } \cdot \boldsymbol { z } _ { p } ) ^ { 2 } } \approx 1$

首先来看 $\left. \frac { \partial \mathcal { L } _ { i } ^ { s u p } } { \partial \boldsymbol { w } _ { i } } \right|_{\mathrm{P(i)}}$ 梯度的强度（先不考虑前面的系数 $\frac{1}{\tau \| \boldsymbol {w_i}\|}$ ）

$\|\left. \frac { \partial \mathcal { L } _ { i } ^ { s u p } } { \partial \boldsymbol { w } _ { i } } \right|_{\mathrm{P(i)}} \| = \sum _ { p \in P ( i ) } \| ( \boldsymbol { z } _ { p } - ( \boldsymbol { z } _ { i } \cdot \boldsymbol { z } _ { p } ) \boldsymbol { z } _ { i } \| |P _ { i p } - X _ { i p }| \tag{B.5}$

当为easy sample时，此时的梯度强度接近0

当为hard sample时，B.5 可以简化为

$\|\left. \frac { \partial \mathcal { L } _ { i } ^ { s u p } } { \partial \boldsymbol { w } _ { i } } \right|_{\mathrm{P(i)}} \| \simeq \sum _ { p \in P ( i ) } |P _ { i p } - X _ { i p }| \tag{B.6}$

考虑outside形式的SupCon $\mathcal{ L } _ {out, i } ^ { s u p }$ ，有

$$
\begin{aligned} |P _ { i p } - X _ { i p }| & = \biggr | \frac { \mathrm { e x p } \biggr( \overbrace{ \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p } } ^ {\simeq 0} / \tau \biggr) } { \sum _ { a \in A ( i ) } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { a } / \tau \right) } - \frac { 1 } { | P ( i ) | } \biggr | \
& = \left | \frac { 1 } { \sum _ { a \in A ( i ) } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { a } / \tau \right) } - \frac { 1 } { | P ( i ) | } \right | \
& = \left | \frac { 1 }
{ \sum _ { p’ \in P ( i ) } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p’ } / \tau \right) + \sum _ { n \in N ( i ) } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { n’ } / \tau \right) }

\frac { 1 } { | P ( i ) | } \right | \
& = \left | \frac{| P ( i ) | - { \sum _ { p’ \in P ( i ) } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p’ } / \tau \right) + \sum _ { n \in N ( i ) } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { n’ } / \tau \right) } }{| P ( i ) | ({ \sum _ { p’ \in P ( i ) } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p’ } / \tau \right) + \sum _ { n \in N ( i ) } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { n’ } / \tau \right) } )} \right | \
&\propto \left || P ( i ) | - { \sum _ { p’ \in P ( i ) } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p’ } / \tau \right) + \sum _ { n \in N ( i ) } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { n’ } / \tau \right) } \right |
\end{aligned} \tag{B.7}
$$

由于 $\sum _ { p' \in P ( i ) } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p' } / \tau \right ) \geq |P ( i )|$ ，因此

$\propto \sum _ { n \in N ( i ) } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { n' } / \tau \right) + \sum _ { p' \in P ( i ) } \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { p' } / \tau \right) - | P ( i ) | \tag{B.8}$

从式B.8不难得出，梯度强度受益于negative和positive sample的数量。

此处有个假设， $\boldsymbol z_i \boldsymbol z_p' \geq 0, \boldsymbol z_i, \boldsymbol z_n' \leq 0$

对于positive的easy sample，由于 $\| ( \boldsymbol { z } _ { p } - ( \boldsymbol { z } _ { i } \cdot \boldsymbol { z } _ { p } ) \boldsymbol { z } _ { i } \| \approx 0$ ，导致较小的梯度强度。

对于positive的hard sample，此时 $\| ( \boldsymbol { z } _ { p } - ( \boldsymbol { z } _ { i } \cdot \boldsymbol { z } _ { p } ) \boldsymbol { z } _ { i } \| \approx 1$ ，根据式B.8，梯度强度进一步受益于negative和positive sample的数量。

同理可以分析negative场景下的梯度信号，此处不再赘述。

C SupCon和其他loss的关系

(一) 与自监督对比学习loss的联系

自监督对比学习时SupCon的一个特例。当positive的数量为1时，此时SupCon等同于自监督对比损失。

(二) 与triplet loss的联系

假定一个batch为一个三元组（anchor, positive, negative）, $\boldsymbol { z } _ { a }, \boldsymbol { z } _ { p }, \boldsymbol { z } _ { n }$ 分别为anchor image, positive image, negative image的表征，且有 $\|\boldsymbol { z } _ { a }\|=\|\boldsymbol { z } _ { p }\|=\|\boldsymbol { z } _ { n } \| = 1$ 。假设 $\boldsymbol { z } _ { a }$ 与 $\boldsymbol { z } _ { p }$ 的距离远大于 $\boldsymbol { z } _ { n }$ 的距离 $\boldsymbol { z } _ { a } \cdot \boldsymbol { z } _ { p } \gg \boldsymbol { z } _ { a } \cdot \boldsymbol { z } _ { n }$ ，此时的SupCon为

$\begin{aligned} \mathcal { L } ^ { s u p } &= - \log \frac { \exp \left( \boldsymbol { z } _ { a } \cdot \boldsymbol { z } _ { p } / \tau \right) } { \exp \left( \boldsymbol { z } _ { a } \cdot \boldsymbol { z } _ { p } / \tau \right) + \exp \left( \boldsymbol { z } _ { a } \cdot \boldsymbol { z } _ { n } / \tau \right) } \\ & = \log \frac { \exp \left( \boldsymbol { z } _ { a } \cdot \boldsymbol { z } _ { p } / \tau \right) + \exp \left( \boldsymbol { z } _ { a } \cdot \boldsymbol { z } _ { n } / \tau \right) }{ \exp \left( \boldsymbol { z } _ { a } \cdot \boldsymbol { z } _ { p } / \tau \right) } \\ & = \log(1 + \exp{((\boldsymbol { z } _ { a } \cdot \boldsymbol { z } _ { n }-\boldsymbol { z } _ { a } \cdot \boldsymbol { z } _ { p }) / \tau } ) \quad \text{(Taylor expansion of log)} \\ & \approx \exp{((\boldsymbol { z } _ { a } \cdot \boldsymbol { z } _ { n }-\boldsymbol { z } _ { a } \cdot \boldsymbol { z } _ { p }) / \tau }) \quad \text{(Taylor expansion of exp)} \\ & \approx 1 + \frac{1}{\tau} (\boldsymbol { z } _ { a } \cdot \boldsymbol { z } _ { n }-\boldsymbol { z } _ { a } \cdot \boldsymbol { z } _ { p }) \\ & = 1 - \frac{1}{2\tau}(\| \boldsymbol { z } _ { a } - \boldsymbol { z } _ { n }\|^2 - \| \boldsymbol { z } _ { a } - \boldsymbol { z } _ { p }\|^2) \\ & = \frac{2\tau + \| \boldsymbol { z } _ { a } - \boldsymbol { z } _ { p }\|^2 - \| \boldsymbol { z } _ { a } - \boldsymbol { z } _ { n }\|^2}{2\tau} \\ & \propto \| \boldsymbol { z } _ { a } - \boldsymbol { z } _ { p }\|^2 - \| \boldsymbol { z } _ { a } - \boldsymbol { z } _ { n }\|^2 + 2\tau \end{aligned} \tag{C.1}$

由此我们从SupCon推出了triplet loss的形式，它是SupCon的一个特例。

（三）与N-pair loss的联系

当 $P(i)=k(i),\tau = 1$ 时，SupCon等价于N-pair loss。 $k (i)$ 表示图片 $i$ 作为anchor时生成的图片索引。

$\mathcal { L } ^ { s u p } | _ { P ( i ) = k ( i ) , \tau = 1 } = \mathcal { L } ^ { n \cdot p a i r s } = - \sum _ { i \in I } \log \frac { \mathrm { e x p } \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { k ( i ) } \right) } { \sum _ { a \in A ( i ) } \exp \left( \boldsymbol { z } _ { i } \boldsymbol { \cdot } \boldsymbol { z } _ { a } \right) } \tag{C.2}$