论文略读:LoRA Learns Less and Forgets Less

202405 arxiv

1 主要思想

LORA相比于全参数训练,学的少,但忘的也少

2 实验分析

2.1 训练的表现

  • 在编程和数学任务中,LoRA相比全参数微调表现出明显的劣势

2.2 遗忘的表现

  • 这边的遗忘,是指在数据集A上预训练,然后在数据集B上继续finetune,看在数据集A上的表现
  • 相比全参数微调,LoRA学会的东西较少,但遗忘也相对更少

3 论文的分析:Lora的正则化特性

  •  LoRA提供了比经典正则化技术,如权重衰减和dropout,更强的正则化效果。
  • 在下游任务上LoRA的表现低于大多数正则化方法(左图);在遗忘上LoRA优于所有正则化方法(右图)

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-17 16:50:06       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-17 16:50:06       71 阅读
  3. 在Django里面运行非项目文件

    2024-07-17 16:50:06       58 阅读
  4. Python语言-面向对象

    2024-07-17 16:50:06       69 阅读

热门阅读

  1. 【14】水仙花数

    2024-07-17 16:50:06       19 阅读
  2. vue3项目,管控部分路由仅管理员可见

    2024-07-17 16:50:06       18 阅读
  3. 乡下人的悲歌书籍pdf下载

    2024-07-17 16:50:06       22 阅读
  4. ES6基本语法(二)——函数与数组

    2024-07-17 16:50:06       20 阅读
  5. Jupyter Notebook 一些常用的快捷键

    2024-07-17 16:50:06       19 阅读
  6. linux 修改hostname

    2024-07-17 16:50:06       23 阅读
  7. 【Oracle】Oracle语法之递归查询

    2024-07-17 16:50:06       19 阅读
  8. C++基础练习 - Chapter 3

    2024-07-17 16:50:06       17 阅读
  9. 如何成为一个厉害的人

    2024-07-17 16:50:06       21 阅读