Informer

$I n f or m er$

摘要：

长序列时间序列的预测

$in f or m er$ 优点：

$P ro b s p a re$ 自关注机制，在时间复杂度和内存使用方面达到 $O (Nl o g N)$ ,在序列依赖对齐方面性能较好。
自注意蒸馏通过将级联层输入减半来突出主导注意力，并有效地处理极长的输入序列。
以一次向前操作的方式预测长序列时间序列，提高了长序列预测的推理速度。

1.简介：

$T r an s f or m er$ 求解 $L STF$ 缺点：

自注意力的二次计算。标准的点积 $(d o t - p ro d u c t)$ 操作，会导致每一层的时间复杂度和内存使用都达到 $O(N^2)$ 的级别，其中 $L$ 是输入序列的长度。
长输入的堆叠层的内存瓶颈。 $J$ 编码器/解码器层的堆叠使得总内存使用量为 $O(J·L^2)$ ，这限制了模型在接收长序列输入时的可扩展性。
预测长期产出的速度下降。原始 $T r an s f or m er$ 的动态解码使得逐步推理与基于 $RNN$ 的模型一样慢，每个步骤都必须等待前一个步骤完成才能进行。

本文主要内容：

提出了 $I n f or m er$ 来成功地增强 $L STF$ 问题的预测能力，这验证了类似 $T r an s f or m er$ 模型的潜在价值，以捕捉长序列时间序列输出和输入之间的单个长期依赖关系。
提出了 $P ro b Sp a rse$ 自注意机制来有效地取代规范的自注意机制，实现了 $O (Nl o g N)$ 的时间复杂度和 $O (Nl o g N)$ 的内存使用。
提出了自注意力蒸馏操作特权支配 $j -$ 堆叠层的注意力分数，并大幅降低总空间复杂度为 $O((2−\epsilon)NlogN)$ 。
提出生成式解码器 $(G e n er a t i v e St y l eDeco d er)$ ，只需要向前一步就可以获得长序列输出，同时避免累积错误传播

在这里插入图片描述

$I n f or m er$ 模型的整体图。左边的部分是 $E n co d er$ ，它接收大量的长序列输入(绿色系列)。我们已经用提出的 $P ro b Sp a rse$ 自注意取代了规范的自注意。蓝色梯形是提取支配性注意的自注意蒸馏操作，急剧减小网络规模。层堆叠副本提高了鲁棒性。对于右侧部分，解码器接收长序列输入，将目标元素填充为零，测量特征图的加权注意力组成，并以生成式的方式立即预测输出元素(橙色系列)。

2.预备

定义：在具有固定大小窗口的滚动预测设置下，在 $t$ 时刻的输入为 $X_t = \{ x_t^1, \ldots, x_t^{L_x} \,|\, x_t^i \in \mathbb{R}^{d_x} \}$ ，输出为 $Y_t = \{ y_t^1, \ldots, y_t^{L_y} \,|\, y_t^i \in \mathbb{R}^{d_y} \}$

编码器-解码器架构 $(Encoder-decoder\ architecture)$ 被设计用于将输入表示 $X_t$ “编码”为隐藏状态表示 $H_t$ ，并从 $H_t = {h_t^1, ..., h_t^{L_h}}$ 中“解码”出输出表示 $Y_t$ 。推理过程涉及一个名为“动态解码” $(dynamic\ decoding)$ 的逐步过程，其中解码器根据前一个状态 $h_t^k$ 和第 $k$ 步的其他必要输出，计算新的隐藏状态 $h_t^{k+1}$ ，然后预测第 $(k + 1)$ 个序列 $y_t^{k+1}$ 。

在这个架构中，编码器负责处理输入数据（例如，一个句子、一段文本、一个图像等），并将其转换为一个或多个隐藏状态向量。这些隐藏状态向量捕获了输入数据的重要信息，这些信息随后被解码器用来生成输出序列。

解码器则负责利用这些隐藏状态向量来生成输出数据。在生成输出时，解码器通常会采用一种序列到序列 $(se q u e n ce - t o - se q u e n ce)$ 的方法，即一个步骤接着一个步骤地生成输出序列。在每个步骤中，解码器都会考虑前一个步骤的输出和隐藏状态，来预测下一个输出。

在这里插入图片描述

Informer的输入表示，包括标量投影，本地时间戳和全局时间戳嵌入三个部分.jpg

假设我们有 $t$ 个序列输入 $X_t$ 和 $p$ 种类型的全局时间戳，输入表示后的特征维度为 $d_{model}$ 。我们首先通过使用固定位置嵌入来保持低阶上下文，即 $\sin\left(\frac{pos}{{(2L_x)}^{2j/d_{\text{model}}}}\right)$ ,
$\cos\left(\frac{pos}{{(2L_x)}^{2j/d_{\text{model}}}}\right)$ ,，其中 $\in \left\{1, \ldots, \frac{d_{\text{model}}}{2}\right\}$ .。每个全局时间戳由一个可学习的戳嵌入 $SE_{(pos)}$ 使用，词汇表大小有限（最多 $60$ 个，即以分钟为最细粒度）。也就是说，自注意力的相似度计算可以访问全局上下文，并且在长输入上的计算开销是可以承受的。为了对齐维度，我们使用一维卷积滤波器（核宽度= $3$ ，步长= $1$ ）将标量上下文 $x_{i}^{t}$ 投影 $d_{model}$ -维向量 $u_{i}^{t}$ 。因此，我们有了如下的f反馈向量： $X_{\text{feed[i]}}^t = \alpha u_i^t + \text{PE}(L_x \times (t-1) + i) + \sum_{p} \left[ \text{SE}_{(L_x \times (t-1) + i)} \right]_{\text{p}}$ ，其中 $\in \{1, \dots, L_x\}$ ，并且 $α$ 是一个用于平衡标量投影与局部/全局嵌入之间的幅度的因子。如果序列输入已经被标准化了，我们推荐 $α = 1$ 。这里的PE代表位置嵌入 $(position\ embedding)$ ，用于捕捉序列中每个位置的信息；而 $SE$ 是学习的时间戳嵌入， $α$ 是一个超参数，用于平衡不同的嵌入或投影对最终输入向量的贡献。

3.方法论

高效自我注意机制

自注意力机制接收一个元组输入 $(q u ery, k ey, v a l u e)$ ，并通过缩放点积运算 $(sc a l e dd o t - p ro d u c t)$ 进行运算，表示为 $\text{Softmax}\left(\frac{QK^{\top}}{\sqrt{d}}\right)V, \text{其中 } Q \in \mathbb{R}^{L_Q \times d}, K \in \mathbb{R}^{L_K \times d}, V \in \mathbb{R}^{L_V \times d}$ ，其中 $d$ 是输入维度。为了进一步讨论自注意力机制，令 $q_i$ , $k_i$ , $v_i$ 分别表示 $Q$ , $K$ , $V$ 中的第 $i$ 行。根据 $\ et\ al. (2019)$ 的公式，第 $i$ 个查询的注意力被定义为概率形式的核平滑器 $(kernel\ smoother)$ ：则：
$A(q_i, K, V) = \sum_j \frac{k(q_i, k_j)}{\sum_l k(q_i, k_l)} v_j=\mathbb{E}_{p(k_j|q_i)}[v_j] \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 方程一$
其中， $p(k_j|q_i) = \frac{k(q_i, k_j)}{\sum_l k(q_i, k_l)}$ ， $k(q_i, k_j)$ 是一个核函数。这里我们使用不对称的指数核函数 $\exp\left(\frac{q_i \cdot k_j}{\sqrt{d}}\right)$ 。自注意力机制通过计算概率$ (p(k_j|q_i)) $来结合值并获取输出。这需要二次时间复杂度的点积计算和 $O(L_Q L_K))$ 的内存使用，这是提高预测能力的主要缺点。

从方程 $(1)$ 中，第 $(i)$ 个查询对所有键的注意力被定义为一个概率 $p(k_j|q_i))$ ，而输出是其与值 $(v)$ 的组合。主要的点积对会鼓励对应的查询注意力概率分布远离均匀分布。如果 $p(k_j|q_i))$ 接近均匀分布 $(q(k_j|q_i) = \frac{1}{L_K})$ ，那么自注意力就变成了值 $(V)$ 的简单和，并且对输入是冗余的。自然地，分布 $(p)$ 和 $(q)$ 之间的“相似性”可以用来区分“重要”的查询。我们通过 $K u ll ba c k - L e ib l er$ 散度（ $K L$ 散度）来测量“相似性”， $K L$ 散度定义为：
$\begin{equation*} KL(q||p) = \ln\left( \sum_{l=1}^{L_K} e^{\frac{q_i \cdot k_l^T}{\sqrt{d}}} \right) - \ln(L_K) - \sum_{j=1}^{L_K} \frac{1}{L_K} \cdot {\frac{q_i \cdot k_l^T}{\sqrt{d}}} \end{equation*}$
我们定义第 $(i)$ 个查询的稀疏度测量为:
$M(q_i, K) = \ln\left( \sum_{j=1}^{L_K} e^{\frac{q_i \cdot k_j^T}{\sqrt{d}}} \right) - \frac{1}{L_K} \sum_{j=1}^{L_K} \frac{q_i \cdot k_j^T}{\sqrt{d}}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 方程二$

第一项是所有键上 $q_i)$ 的 $L o g - S u m - E x p （ L SE ）$ ，第二项是这些键的算术平均值。如果第 $(i)$ 个查询获得了较大的 $M(q_i, K))$ 值，那么它的注意力概率 $(p)$ 就更加“多样化”，并且有很大可能性包含长尾自注意力分布中头部字段的主要点积对。这里，“多样化”意味着注意力不仅仅集中在少数几个键上，而是相对均匀地分布在多个键上。同时，由于 $M(q_i, K))$ 值较大，该查询的注意力分布更有可能包含那些具有较大点积值的键-查询对，这些对在长尾分布中占据主导地位。

基于所提出的度量标准，我们通过允许每个键仅关注于占主导地位的查询u，从而实现了 $P ro b Sp a rse$ 自注意力机制。
$\text{Softmax}\left(\frac{\overline QK^T}{\sqrt{d}}\right)V\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 方程三$
其中， $(\overline Q)$ 是一个与 $(q)$ 相同大小的稀疏矩阵，它仅包含根据稀疏性度量 $(M (q, K))$ 选择的前 $(u)$ 个查询。通过一个常数采样因子 $(c)$ 来控制，我们设定 $\cdot \ln L_Q)$ ，这使得 $P ro b Sp a rse$ 自注意力机制在每次查询-键查找时只需要计算 $O(\ln L_Q))$ 个点积，并且层的内存使用保持在 $O(L_K \ln L_Q))$ 。

简单来说， $P ro b Sp a rse$ 自注意力机制通过稀疏化手段，仅对稀疏矩阵 $(Q)$ 中的前 $(u)$ 个查询（根据某种稀疏性度量）进行计算，从而降低了计算复杂度和内存使用。这里的 $(u)$ 是基于查询数量 $L_Q)$ 的对数和一个常数采样因子 $(c)$ 来确定的。

然而，为了计算度量 $M(q_i, K))$ 而遍历所有查询需要计算每对点积，即时间复杂度为平方级别的 $O(L_Q L_K))$ ，并且 $L SE (L o g - S u m - E x p)$ 操作存在潜在的数值稳定性问题。鉴于这一点，我们提出了一个查询稀疏性度量的近似方法。

引理一:对于每个查询 $q_i \in \mathbb{R}^d$ 和键集中的 $k_j \in \mathbb{R}^d$ 在集合 $K$ 中，我们有边界 $\ln L_K \leq M(q_i, K) \leq \max_j \left\{ \frac{ \, q_i \cdot k_j^T}{\sqrt{d}} \right\} - \frac 1{L_K}\cdot \sum_{j=1}^{L_K} \left\{ \frac{ \, q_i \cdot k_j^T}{\sqrt{d}} \right\}+ \ln L_K$ 。当 $q_i \in K$ 时，该不等式也成立。

根据引理一，我们提出了最大均值测量为：
$\overline M(q_i, K) = \max_j \left\{ \frac{q_i \cdot k_j^T}{\sqrt{d}} \right\} - \frac{1}{L_K} \sum_{j=1}^{L_K}\frac{q_i \cdot k_j^T}{\sqrt{d}} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 方程四$
命题一:假设 $k_j \sim N(\mu, \Sigma)$ ，我们让 $q{k_i}$ 表示集合 $\left\{ \left( q_i{k_j^T} \right) / \sqrt{d} \,|\, j = 1, \ldots, L_K \right\}$ ，那么对于 $\forall M_m = \max_i M(q_i, K)$ ，存在 $\kappa > 0$ 使得：在区间 $\forall q_1, q_2 \in \{ q \,|\, M(q, K) \in [M_m, M_m - \kappa) \}$ 内，如果 $\overline M(q_1, K) > \overline M(q_2, K)$ 并且 $\text{Var}(q{k_1}) > \text{Var}(q{k_2})$ ，那么 $M(q_1, K) > M(q_2, K)$ 的概率很高。为了简化，证明中给出了概率的估计。

边界放宽下的前 $(u)$ 个的顺序在命题 $1$ （请参阅附录 $D .2$ 中的证明）中得以保持。在长尾分布下，我们仅需要随机抽取 $U = L_Q \ln L_K)$ 个点积对来计算 $(\overline M(q_i, K))$ ，即将其余的点积对填充为零。我们从中选择稀疏的前 $(u)$ 个作为 $(Q)$ 。在 $M(q_i, K))$ 中的最大值操作对零值不太敏感，并且数值上是稳定的。在实践中，查询和键的输入长度通常是相等的，即 $L_Q = L_K = L)$ ，这样 $P ro b Sp a rse$ 自注意力的总时间复杂度和空间复杂度都是 $\ln L))$ 。

$E n co d er :$ 允许在内存使用限制下处理更长的顺序输入

在这里插入图片描述

Informer编码器的架构。（1）每个水平堆叠代表图2中的编码器副本中的一个独立副本；（2）上面的堆叠是主要堆叠，它接收整个输入序列，而第二个堆叠则接收输入的一半切片；（3）红色层是自注意力机制的点积矩阵，通过在每一层应用自注意力蒸馏技术，这些矩阵的数量逐渐减少；（4）将两个堆叠的特征图合并作为编码器的输出。

该编码器被设计用于提取长序列输入中的稳健长程依赖关系。在输入表示之后，第 $t$ 个序列输入 $X_t$ 被重塑为一个大小为 $L_x \times d_{\text{model}}$ 的矩阵 $X_t^{\text{feed en}} \in \mathbb{R}^{L_x \times d_{\text{model}}}$ 。

自注意力蒸馏 $(Self-attention\ Distilling)$ 作为 $P ro b Sp a rse$ 自注意力机制的自然结果，编码器的特征图包含了冗余的值 $V$ 组合。我们利用蒸馏操作来突出具有主导特征的优势组合，并在下一层生成一个集中的自注意力特征图。这极大地缩减了输入的时间维度，如图中注意力模块的 $n$ 个头权重矩阵（重叠的红色方块）所示。受到空洞卷积 $\ Funkhouser \ 2017; Gupta \ and \ Rush \ 2017）$ 的启发，我们的“蒸馏”过程从第 $j$ 层向前传递到第 $(j + 1)$ 层，作为
$X_{t}^{j+1} = \text{MaxPool}\left( \text{ELU}\left( \text{Conv1d}\ \left[ X_{t}^{j} \right]_{AB} \right) \right)\ \ \ \ \ \ \ \ \ \ \ \ \ 方程五$

其中，该表达式 $_{AB}$ 包含多头ProbSparse自注意力机制以及注意力块中的关键操作，其中 $C o n v 1 d (\cdot)$ 在时间维度上执行一维卷积滤波器 $($ 核宽度 $= 3)$ ，并使用 $E LU (\cdot)$ 作为激活函数 $and\ Hochreiter\ 2016)$ 。我们在堆叠一层后添加一个步长为 $2$ 的最大池化层，将 $X_t$ 下采样到其一半的切片，这样可以将整个内存使用量减少到 $O ((2 - ε) L l o gL)$ ，其中 $ε$ 是一个很小的数。为了增强蒸馏操作的鲁棒性，我们构建了主堆栈的减半副本，并通过每次丢弃一层来逐渐减少自注意力蒸馏层的数量，形成一个如图所示的金字塔结构，从而使其输出维度对齐。因此，我们将所有堆栈的输出连接起来，得到编码器的最终隐藏表示。

$Deco d er :$ 通过一个前向过程生成长序列输出

我们使用的标准解码器结构 $Vaswani\ et\ al. 2017$ ，它由两层相同的多头注意力层堆叠而成。然而，为了缓解长预测中速度下降的问题，我们采用了生成式推理。我们将以下向量作为输入提供给解码器：
$\mathbf{X}_{\text{feed de}}^t = \text{Concat}(\mathbf{X}_{\text{token}}^t, \mathbf{X}_{0}^t) \in \mathbb{R}^{(L_{\text{token}} + L_y) \times d_{\text{model}}}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 方程六$
其中， $X_t^{\text{token}} \in \mathbb{R}^{L_{\text{token}} \times d_{\text{model}}}$ 作为起始令牌。 $Xt_0$ 是一个占位符，用于目标序列（将其标量值设为 $0$ ）。在 $P ro b Sp a rse$ 自注意力计算中，应用了掩码多头注意力 $(Masked\ Multi-head\ Attention)$ ，通过将掩码的点积设置为 $- \infty$ 来阻止每个位置关注到后续位置，从而避免了自回归 $(a u t o - re g ress i v e)$ 性质。一个全连接层获取最终输出，其输出大小 $d_y$ 取决于我们是否执行单变量预测或多变量预测。

生成式推断中的起始令牌是自然语言处理中“动态解码”的一种高效技术，我们将其扩展为生成式的方式。我们并没有选择特定的标志作为令牌，而是在输入序列中采样一个长度为 $L_{token}$ 的序列，该序列是输出序列之前的一个较早片段。以预测 $168$ 个点为例（即 $7$ 天的温度预测），我们将目标序列之前的已知 $5$ 天作为“起始令牌”，并将这些信息与生成式推断解码器一起输入，表示为 $X_{feed_de} = {X_{5d}, X_0}$ 。其中， $X_0$ 包含目标序列的时间戳，即目标周的背景信息。值得注意的是，我们提出的解码器通过一次前向过程即可预测所有输出，避免了传统编码器-解码器架构中耗时的“动态解码”过程。在计算效率部分，我们给出了详细的性能比较。