DFT: Parameter-Efficient Fine-Tuning with Discrete Fourier Transform

文章汇总

动机

相比LoRA，进一步压缩可训练参数以进行微调LFMs。
效果如下：

解决办法

相比LoRA，这里的 $\Delta W$ 为 $E\in \mathbb R^{2\times n}$ 和 $c\in \mathbb R^n$ 。对于所有 $L$ 个适应层，FourierFT需要存储 $n\times (2+L)$ 个参数。需要注意的是，所有层仅训练 $\in \mathbb R^n$ 向量，同时共享矩阵 $E$ ( $E\in \mathbb R^{2\times n}$ 是冻结的)和超参数 $\alpha$ 。
具体来说进行如下操作

具体来说，Eq. 2中的TODENSE表示构造谱矩阵 $F\in R^{d_1\times d_2}$ 。Eq. 3通过离散傅里叶反变换计算空间矩阵 $S$ ，其中 $i$ 表示虚单位。最后，在Eq. 4中，我们取复矩阵 $S$ 的实部(记为 $\Re(S)$ )并将其乘以 $\alpha$ 。请注意，所有层都涉及训练各种 $c$ 向量，同时共享矩阵 $E$ 和值 $\alpha$ 。
最后，我们通过对更新后的谱矩阵直接进行离散傅立叶反变换(IDFT)得到权值变化 $\Delta W$ 。

摘要

近年来，低秩自适应(LoRA)在基础模型的微调方面引起了广泛的关注。通过引入低秩矩阵 $A$ 和 $B$ 来表示权重变化，即 $\Delta W=BA$ ，有效地减少了可训练参数的数量。尽管LoRA取得了进步，但在处理广泛的定制调整或更大的基本模型时，它面临着存储方面的挑战。在这项工作中，我们的目标是利用傅里叶变换的强大表现力进一步压缩可训练参数。具体来说，我们引入傅里叶变换，它将 $\Delta W$ 作为空间域中的矩阵，并且只学习其光谱系数的一小部分。利用训练好的频谱系数，我们实现离散傅里叶反变换来恢复 $\Delta W$ 。根据经验，我们的FourierFT方法在各种任务上表现出与LoRA相当或更好的性能，参数更少，包括自然语言理解、自然语言生成、指令调优和图像分类。例如，在LLaMA2-7B模型上执行指令调优时，FourierFT仅以0.064M可训练参数超过LoRA，而LoRA的可训练参数为33.5M。我们的代码发布在https://github.com/Chaos96/fourierft。

1. 介绍

大型基础模型(LFMs)已经在多个领域的任务上展示了卓越的性能，包括自然语言处理(NLP)和计算机视觉(CV)。由于他们令人印象深刻的能力，为广泛的下游任务微调LFMs已经变得普遍(Wang等人，2022;陶瑞等，2023;邱等人，2020)。在全微调范式下，适应每个定制任务的新模型通常包含与原始模型一样多的参数(Qiu et al .， 2020;拉斐尔等人，2020;Chen et al .， 2024;Gao et al .， 2024)。随着模型变大和定制需求的扩展，存储微调检查点的需求也会增加，从而导致昂贵的存储和内存消耗。
LoRA (Hu et al .， 2021)是解决这一问题的一种流行方法，它用两个低秩矩阵 $A$ 和 $B$ 表示权重变化，即 $W_0+\Delta W=W_0+BA$ 。尽管LoRA具有出色的性能，但其庞大的可训练参数仍然带来了很高的IT基础设施消耗，这对公共社区和个人用户两端都有影响。对于前者，一个直观的例子是，用于特定类型的稳定扩散模型(Rombach et al, 2022)的LoRA适配器(微调权重)需要大约40MB的内存。这就需要LFM社区承担高存储和带宽成本，以满足庞大的用户群。对于后者，更少的参数意味着在移动应用程序中加载微调权重时直接节省RAM，从而为个人用户提供足够的定制(Zhou et al, 2022)。为此，我们自然会问这样一个问题:我们如何进一步压缩可训练参数以进行微调LFMs?
以前的工作已经证明了傅里叶基在数据压缩中的强大表现力，其中极其稀疏的频谱信息可以用来恢复高保真数据(例如，1D信号向量)(Zwartjes & Gisolf, 2007;Duarte & Baraniuk, 2013;Rudelson & Vershynin, 2008)和2D图像矩阵(Vlaardingerbroek & Boer, 2013;Song等，2021;Shi et al .， 2014)。更重要的是，当处理缺乏强空间语义和非频率稀疏的更一般的(非图像)矩阵时，傅里叶变换仍然可以有效地处理恢复(Chen & Chi, 2013;Yang & Xie, 2016)。基于此，我们研究了用其稀疏谱系数更新权重变化 $\Delta W$ 用于微调LFMs的潜力。
在本文中，我们的目标是积极地减少微调LFMs的可训练参数的数量。为此，我们提出FourierFT (Fourier Transform for Fine-Tuning)，它将权重变化 $\Delta W$ 作为空间域中的矩阵，并学习其稀疏谱系数。具体来说，我们首先随机选择所有层共享的 $n$ 个谱项。对于每一层，FourierFT学习位于这 $n$ 个选定条目的 $n$ 个谱系数，然后直接应用离散傅里叶反变换来计算更新后的 $\Delta W$ 。因此，微调具有 $L_t$ 层的预训练模型只需要为fourerft存储 $2 n$ 个入口参数和 $nL_t$ 系数参数。

图1所示。在NLP(左)和CV(右)任务上，不同可训练参数数量(x轴)的微调方法的性能(y轴)总结。左侧显示指令调优任务，其中LLaMA2-7B模型使用Alpaca进行微调，并通过GPT-4进行评估。右侧显示图像分类任务，其中对视觉转换器(Vision Transformer, ViT)进行了微调，并在DTD数据集中进行了测试。黑色圆圈(●)表示完全微调(FF)方法。橙色圆圈(●)表示LoRA方法， $r =\{32,64,128\}$ (左)， $r =\{8,16,32\}$ (右)。蓝色圆圈(●)代表我们提出的方法，左边 $n =\{1000,2000\}$ ，右边 $n =\{3000,10000\}$ 。
在经验上，我们将我们的方法与最先进的LoRA变体和其他参数高效的微调方法在各种任务上进行了比较，包括:(1)自然语言理解(在GLUE基准上)，(2)自然语言生成(在E2E基准上)，(3)指令调优(使用llama家族模型)和(4)图像分类(使用视觉变压器)。FourierFT总能达到与LoRA相当甚至更好的性能，对于这4个任务，其可训练参数分别约为LoRA的6.0%、9.4%、0.2%和9.2%。例如，在图1中，在指令调优任务中，我们的FourierFT方法仅使用64K可训练参数就优于LoRA。此外，它达到了与只有128K参数的完全微调相当的分数。

3. 方法

我们提出傅立叶变换(如图2所示)，一种基于离散傅立叶变换的参数高效微调方法。FourierFT遵循LoRA提出的只学习预训练权值变化的原则(Hu et al .， 2021)。然而，与LoRA不同的是，FourierFT不采用低秩结构，而是学习一组傅立叶基的谱系数。具体来说，我们随机初始化光谱条目矩阵，该矩阵被冻结并在所有层之间共享。我们使位于选定条目的谱系数可训练，它们共同构成谱矩阵。最后，我们将离散傅里叶反变换应用于频谱矩阵，在更新权重变化时产生其空间域对应项。

图2。LoRA的概述(左)和我们的FourierFT(右)方法。在LoRA中，只训练低秩( $r$ )矩阵 $A$ 和 $B$ 。权重变化用它们的乘法表示，即 $\Delta W=BA$ 。对于每个预训练权值 $\Delta W=BA$ , LoRA中可训练参数的理论个数为 $\times (d_1+d_2)$ 。在FourierFT中，我们首先随机生成谱条目矩阵 $R^{2\times n}$ ，该矩阵在所有层之间共享，以减少参数存储需求。完整的谱矩阵由一个可训练系数向量 $R^n$ 组成， $R^n$ 位于选定的项上，0位于剩余的项上。我们通过对更新后的谱矩阵直接进行离散傅立叶反变换(IDFT)得到权值变化 $\Delta W$ 。对于所有 $L$ 个适应层，FourierFT需要存储 $n\times (2+L)$ 个参数。

3.1. Forward Pass

我们遵循仅学习权重变化的范例，这是基于lora的方法所采用的(Hu等，2021;Dettmers等，2023;Zhang et al, 2023)。这可以通过合并预训练的权重及其变化来避免推理延迟。形式上，我们定义每个预训练的权值矩阵为 $W_0\in R^{d_1\times d_2}$ ，微调的权值变化为 $\Delta W\in R^{d_1\times d_2}$ 。LoRA的目的是将前向通道中的 $\Delta W$ 以低秩分解的形式参数化:

其中，秩 $r\ll \text{min}(d_1,d_2)$ 的 $B\in R^{d_1\times r}$ 和 $A\in R^{r\times d_2}$ 为可训练矩阵。
傅里叶变换的优点是正交和表达的傅里叶基能够恢复信息权重变化。这表明可以用更少的参数实现与LoRA相当的性能。我们首先随机初始化包含离散二维谱项的条目矩阵 $E\in R^{2\times n}$ 。然后我们将系数 $c\in R^n$ 随机初始化为正态高斯分布。提出的前向通道是:

具体来说，Eq. 2中的TODENSE表示构造谱矩阵 $F\in R^{d_1\times d_2}$ ，即 $F_{j,k}=c_l$ (resp. 2)。0)，如果 $j=E_{0,l}\&k=E_{1,l}$ (其他的)。Eq. 3通过离散傅里叶反变换计算空间矩阵 $S$ ，其中 $i$ 表示虚单位。最后，在Eq. 4中，我们取复矩阵 $S$ 的实部(记为 $\Re(S)$ )并将其乘以 $\alpha$ 。请注意，所有层都涉及训练各种 $c$ 向量，同时共享矩阵 $E$ 和值 $\alpha$ 。
FourierFT的伪代码显示为算法1，遵循PyTorch风格。

前人的研究缺乏对谱项在权值变化中的重要性的研究。因此，我们通过引入可调频率偏置来填补这一空白，从而使条目更有可能在该区域进行采样。除了在完整的 $d_1\times d_2$ 大小的谱矩阵中随机采样条目(即无偏差)之外，我们还实现了对有利的中心频率(例如，低、中或高频)的偏置条目采样。形式上，我们应用高斯带通滤波器(Gonzales & Wintz, 1987)对 $(u, v)$ 项， $0\le u \le d_1-1,0\le v \le d_2-1$ 的采样概率进行建模:

其中， $D$ 表示点 $(u, v)$ 到原点(矩阵中心)的距离， $f_c$ 为首选中心频率， $W$ 为带宽。在图3中，我们可视化了不同 $f_c$ 和 $W = 200$ 的 $768\times 768$ 大小的光谱矩阵的采样概率图。

图3。不同有利中心频率 $f_c$ 下入口采样概率的可视化。
请注意，除非特别说明，fourerft默认设置为无频率偏置的条目初始化。

3.2. 参数总结

表1。可训练参数的理论数量和微调的存储要求。对于LoRA和FourierFT方法，只有查询层和值层在转换器体系结构中进行调优。在“实验”部分中精确选择的配置将被突出显示。
我们在表1中总结了LoRA和FourierFT可训练参数的数量。LoRA依赖于每一层的一对可训练矩阵 $A$ 和 $B$ 。设用于微调的层数为 $L_t$ 。LoRA中参数的总数由秩 $r$ 和权重 $d = d_1 = d_2$ 的维数决定: ${|\Theta|}_{LoRA}=2\times d\times L_t\times r$ 。对于傅里叶，总数的形式为: ${|\Theta|}_{FourierFT}=n\times L_t$ 。作为一个直观的例子，RoBERTa Base模型包含12个 $d = 768$ 的transformer块，当我们只微调查询和值块时，结果是 $L_t = 24$ 层。因此，我们有 ${|\Theta|}_{LoRA}=294$ ，当 $r = 8$ 时为 $912$ ，当 $n = 1000$ 时为 ${|\Theta|}_{FourierFT}=24,000$ 。在表1中，我们强调了在随后的实验中LoRA和我们的方法实现匹配性能的配置。我们注意到，随着模型的尺度(深度和宽度)的增加(例如，RoBERTa Base→RoBERTa Large)， FourierFT中参数效率的优势变得更加明显。这可能是因为 ${|\Theta|}_{LoRA}$ 与宽度 $d$ 有明确的线性关系，而不像 ${|\Theta|}_{FourierFT}$ 。

4. 实验

表2。基于RoBERTa Base (RoBbase)和RoBERTa Large (roblage)模型的各种微调方法在GLUE基准测试的6个数据集上的性能。我们报告了CoLA的马修相关系数(MCC)， STS-B的皮尔逊相关系数(PCC)和所有其余任务的准确性(Acc.)。我们报告5次运行的中位数结果，每次使用不同的随机种子。每个数据集的最佳结果以粗体显示。6个数据集的所有指标越高越好。

图4。使用RoBERTa Base在GLUE基准测试上的性能对比LoRA和我们的可训练参数(每层)的数量。对于所有6个数据集，我们对LoRA应用r ={1,2,4,6,8,15}的设置，n ={50,100,200,1000,6144,12288}。

5. 结论

在本文中，我们的目标是为大型基础模型的单个微调实现极低的存储内存。这将允许针对不同的域、任务或用户首选项定制多个微调。为了实现这一点，我们提出了一种简单而强大的微调方法，将权重变化视为空间域矩阵和只学习谱域的稀疏系数。与lora风格的基线相比，我们的方法在NLP和CV领域的广泛任务中减少了约8 ~ 500倍的可训练参数数量。