《动手学深度学习(PyTorch版)》笔记4.9

Chapter4 Multilayer Perceptron

4.9 Environment and Distribution Shift

4.9.1 Types of Distribution Shift

在一个经典的情景中，假设训练数据是从某个分布 $p_S(\mathbf{x},y)$ 中采样的，但是测试数据将包含从不同分布 $p_T(\mathbf{x},y)$ 中抽取的未标记样本。如果没有任何关于 $p_S$ 和 $p_T$ 之间相互关系的假设，学习到一个分类器是不可能的。

4.9.1.1 Covariate Shift

在不同分布偏移中，协变量偏移（covariate shift）可能是最为广泛研究的。这里我们假设：虽然输入的分布可能随时间而改变，但标签函数（即条件分布 $\mid \mathbf{x})$ ）没有改变。这个问题是由于协变量（特征）分布的变化而产生的。虽然有时我们可以在不引用因果关系的情况下对分布偏移进行推断，但在我们认为 $\mathbf{x}$ 导致 $y$ 的情况下，协变量偏移是一种自然假设。假设在一个与测试集的特征有着本质不同的数据集上进行训练，如果没有方法来适应新的领域，可能会有麻烦。

4.9.1.2 Label Shift

标签偏移（label shift）指的是在目标域中的标签分布与源域中的标签分布存在差异的情况。这里我们假设标签边缘概率 $P (y)$ 可以改变，但是类别条件分布 $P(\mathbf{x} \mid y)$ 在不同的领域之间保持不变。当我们认为 $y$ 导致 $\mathbf{x}$ 时，标签偏移是一个合理的假设。
在一些情况下，标签偏移和协变量偏移假设可以同时成立。例如，当标签是确定的，即使 $y$ 导致 $\mathbf{x}$ ，协变量偏移假设也会得到满足。在这些情况下，使用基于标签偏移假设的方法通常是有利的，因为这些方法倾向于包含看起来像标签（通常是低维）的对象，而不是像输入（通常是高维的）对象。

4.9.1.3 Concept Shift

当标签的定义发生变化时，可能会遇到概念偏移（concept shift），例如我们要建立一个机器翻译系统， $\mid \mathbf{x})$ 的分布可能会因我们的位置不同而得到不同的翻译。

4.9.2 Distribution Shift Correction

4.9.2.1 Empirical Risk and True Risk

训练数据 $\{(\mathbf{x}_1, y_1), \ldots, (\mathbf{x}_n, y_n)\}$ 的特征和相关的标签经过迭代，在每一个小批量之后更新模型 $f$ 的参数。为了简单起见，我们不考虑正则化，因此极大地降低了训练损失：

$\mathop{\mathrm{minimize}}_f \frac{1}{n} \sum_{i=1}^n l(f(\mathbf{x}_i), y_i),$

其中 $l$ 是损失函数，称 $\frac{1}{n} \sum_{i=1}^n l(f(\mathbf{x}_i), y_i)$ 为经验风险（empirical risk）。经验风险是为了近似 真实风险（true risk），即从其真实分布 $p(\mathbf{x},y)$ 中抽取的所有数据的总体损失的期望值：

$E_{p(\mathbf{x}, y)} [l(f(\mathbf{x}), y)] = \int\int l(f(\mathbf{x}), y) p(\mathbf{x}, y) \;d\mathbf{x}dy.$

然而在实践中，我们通常无法获得总体数据，因此只需最小化经验风险，希望能近似最小化真实风险。

4.9.2.2 Covariate Shift Correction

假设对于带标签的数据 $(\mathbf{x}_i, y_i)$ ，我们要评估 $\mid \mathbf{x})$ 。然而观测值 $\mathbf{x}_i$ 是从某些源分布 $q(\mathbf{x})$ 中得出的，而不是从目标分布 $p(\mathbf{x})$ 中得出的。幸运的是，依赖性假设（如独立同分布假设）意味着条件分布保持不变，即： $\mid \mathbf{x}) = q(y \mid \mathbf{x})$ 。如果源分布 $q(\mathbf{x})$ 是“错误的”，我们可以通过在真实风险的计算中，使用以下恒等式来进行纠正：

$\begin{aligned} \int\int l(f(\mathbf{x}), y) p(y \mid \mathbf{x})p(\mathbf{x}) \;d\mathbf{x}dy = \int\int l(f(\mathbf{x}), y) q(y \mid \mathbf{x})q(\mathbf{x})\frac{p(\mathbf{x})}{q(\mathbf{x})} \;d\mathbf{x}dy. \end{aligned}$

换句话说，我们需要根据数据来自正确分布与来自错误分布的概率之比来重新衡量每个数据样本的权重：

$\beta_i \stackrel{\mathrm{def}}{=} \frac{p(\mathbf{x}_i)}{q(\mathbf{x}_i)}.$

将权重 $\beta_i$ 代入到每个数据样本 $(\mathbf{x}_i, y_i)$ 中，我们可以使用”加权经验风险最小化“来训练模型：

$\mathop{\mathrm{minimize}}_f \frac{1}{n} \sum_{i=1}^n \beta_i l(f(\mathbf{x}_i), y_i).$

由于不知道这个比率，我们需要估计它。对于任意一种估计的方法，我们都需要从两个分布中抽取样本：“真实”的分布 $p$ ，通过访问测试数据获取；训练集 $q$ ，通过人工合成的很容易获得。请注意，我们只需要特征 $\mathbf{x} \sim p(\mathbf{x})$ ，不需要访问标签 $\sim p(y)$ 。在这种情况下，对数几率回归（logistic regression）可以得到几乎与原始方法一样好的结果，这是用于二元分类的softmax回归的一个特例。Logistic regression指将线性组合的结果通过sigmoid 函数（也叫logistic函数）映射到一个介于0和1之间的概率值。为了简单起见，假设我们分别从 $p(\mathbf{x})$ 和 $q(\mathbf{x})$ 两个分布中抽取相同数量的样本。现在用 $z$ 标签表示：从 $p$ 抽取的数据为 $1$ ，从 $q$ 抽取的数据为 $- 1$ 。混合数据集中的概率由下式给出

$\mid \mathbf{x}) = \frac{p(\mathbf{x})}{p(\mathbf{x})+q(\mathbf{x})} \text{ and hence } \frac{P(z=1 \mid \mathbf{x})}{P(z=-1 \mid \mathbf{x})} = \frac{p(\mathbf{x})}{q(\mathbf{x})}.$

因此，如果我们使用logistic regression，其中 $\mid \mathbf{x})=\frac{1}{1+\exp(-h(\mathbf{x}))}$ （ $h$ 是一个参数化函数），则很自然有：

$\beta_i = \frac{1/(1 + \exp(-h(\mathbf{x}_i)))}{\exp(-h(\mathbf{x}_i))/(1 + \exp(-h(\mathbf{x}_i)))} = \exp(h(\mathbf{x}_i)).$

总结一下，假设有一个训练集 $\{(\mathbf{x}_1, y_1), \ldots, (\mathbf{x}_n, y_n)\}$ 和一个未标记的测试集 $\{\mathbf{u}_1, \ldots, \mathbf{u}_m\}$ ，对于协变量偏移，假设 $\leq i \leq n$ 的 $\mathbf{x}_i$ 来自某个源分布， $\mathbf{u}_i$ 来自目标分布，以下是纠正协变量偏移的典型算法：

生成一个二元分类训练集： $\{(\mathbf{x}_1, -1), \ldots, (\mathbf{x}_n, -1), (\mathbf{u}_1, 1), \ldots, (\mathbf{u}_m, 1)\}$ 。
用logistic regression训练二元分类器得到函数 $h$ 。
使用 $\beta_i = \exp(h(\mathbf{x}_i))$ 或更好的 $\beta_i = \min(\exp(h(\mathbf{x}_i)), c)$ （ $c$ 为常量）对训练数据进行加权。
使用权重 $\beta_i$ 进行对 $\{(\mathbf{x}_1, y_1), \ldots, (\mathbf{x}_n, y_n)\}$ 的训练。

请注意，上述算法依赖于一个重要的假设：需要目标分布(例如，测试分布)中的每个数据样本在训练时出现的概率非零。如果我们找到 $p(\mathbf{x}) > 0$ 但 $q(\mathbf{x}) = 0$ 的点，那么相应的重要性权重会是无穷大。

4.9.2.3 Label Shift Correction

假设我们处理的是 $k$ 个类别的分类任务。使用和上述相同符号， $q$ 和 $p$ 中分别是源分布（例如训练时的分布）和目标分布（例如测试时的分布）。假设标签的分布随时间变化： $\neq p(y)$ ，但类别条件分布保持不变： $q(\mathbf{x} \mid y)=p(\mathbf{x} \mid y)$ 。如果源分布 $q (y)$ 是“错误的”，
我们可以用下面的恒等式进行修正：

$\begin{aligned} \int\int l(f(\mathbf{x}), y) p(\mathbf{x} \mid y)p(y) \;d\mathbf{x}dy = \int\int l(f(\mathbf{x}), y) q(\mathbf{x} \mid y)q(y)\frac{p(y)}{q(y)} \;d\mathbf{x}dy. \end{aligned}$

这里，重要性权重将对应于标签似然比率

$\beta_i \stackrel{\mathrm{def}}{=} \frac{p(y_i)}{q(y_i)}.$

标签偏移的一个好处是，如果我们在源分布上有一个相当好的模型，那么我们可以得到对这些权重的一致估计，而不需要处理周边的其他维度。在深度学习中，输入往往是高维对象（如图像），而标签通常是低维（如类别）。

为了估计目标标签分布，我们首先采用现成的分类器（通常基于训练数据进行训练），并使用验证集（也来自训练分布）计算其混淆矩阵。混淆矩阵 $\mathbf{C}$ 是一个 $\times k$ 矩阵，其中每列对应于标签类别，每行对应于模型的预测类别，每个单元格的值 $c_{ij}$ 是验证集中，真实标签为 $j$ ，而我们的模型预测为 $i$ 的样本数量所占的比例。

现在，我们不能直接计算目标数据上的混淆矩阵，因为我们无法看到真实环境下的样本的标签，我们所能做的是将所有模型在测试时的预测取平均数，得到平均模型输出 $\mu(\hat{\mathbf{y}}) \in \mathbb{R}^k$ ，其中第 $i$ 个元素 $\mu(\hat{y}_i)$ 是我们模型预测测试集中 $i$ 的总预测分数。

结果表明，如果我们的分类器一开始就相当准确，并且目标数据只包含我们以前见过的类别，以及如果标签偏移假设成立（这里最强的假设），我们就可以通过求解一个简单的线性系统来估计测试集的标签分布

$\mathbf{C} p(\mathbf{y}) = \mu(\hat{\mathbf{y}}),$

因为作为一个估计， $\sum_{j=1}^k c_{ij} p(y_j) = \mu(\hat{y}_i)$ 对所有 $\leq i \leq k$ 成立，其中 $p(y_j)$ 是 $k$ 维标签分布向量 $p(\mathbf{y})$ 的第 $j^\mathrm{th}$ 元素。如果我们的分类器一开始就足够精确，那么混淆矩阵 $\mathbf{C}$ 将是可逆的，进而我们可以得到一个解 $p(\mathbf{y}) = \mathbf{C}^{-1} \mu(\hat{\mathbf{y}})$ 。

因为我们观测源数据上的标签，所以很容易估计分布 $q (y)$ 。那么对于标签为 $y_i$ 的任何训练样本 $i$ ，我们可以使用我们估计的 $p(y_i)/q(y_i)$ 比率来计算权重 $\beta_i$ ，并将其代入加权经验风险最小化中。

4.9.2.4 Concept Shift Correction

概念偏移很难用原则性的方式解决，但通常情况下概念的变化总是缓慢的，我们可以使用新数据更新现有的网络权重，使其适应数据的变化。

4.9.3 Classification of Learning Problems

4.9.3.1 Batch Learning

在批量学习（batch learning）中，我们可以访问一组训练特征和标签 $\{(\mathbf{x}_1, y_1), \ldots, (\mathbf{x}_n, y_n)\}$ ，并使用这些特性和标签训练 $f(\mathbf{x})$ ，然后部署此模型，对来自同一分布的新数据 $(\mathbf{x}, y)$ 进行评分。例如，我们可以根据猫和狗的大量图片训练猫检测器。

4.9.3.2 Online Learning

首先观测 $\mathbf{x}_i$ ，得出一个估计值 $f(\mathbf{x}_i)$ ，只有当我们做到这一点后，才能观测到 $y_i$ ，然后我们会根据我们的决定得到奖励或损失。例如，我们需要预测明天的股票价格，这样我们就可以根据这个预测进行交易。在一天结束时，我们会评估我们的预测是否盈利。换句话说，在在线学习（online learning）中，我们有以下的循环：

$\mathrm{model} ~ f_t \longrightarrow \mathrm{data} ~ \mathbf{x}_t \longrightarrow \mathrm{estimate} ~ f_t(\mathbf{x}_t) \longrightarrow \mathrm{observation} ~ y_t \longrightarrow \mathrm{loss} ~ l(y_t, f_t(\mathbf{x}_t)) \longrightarrow \mathrm{model} ~ f_{t+1}$