论文略读:LoRA Learns Less and Forgets Less
- 开发
- 18
-
202405 arxiv
1 主要思想
LORA相比于全参数训练,学的少,但忘的也少
2 实验分析
2.1 训练的表现
- 在编程和数学任务中,LoRA相比全参数微调表现出明显的劣势
2.2 遗忘的表现
- 这边的遗忘,是指在数据集A上预训练,然后在数据集B上继续finetune,看在数据集A上的表现
- 相比全参数微调,LoRA学会的东西较少,但遗忘也相对更少
3 论文的分析:Lora的正则化特性
- LoRA提供了比经典正则化技术,如权重衰减和dropout,更强的正则化效果。
- 在下游任务上LoRA的表现低于大多数正则化方法(左图);在遗忘上LoRA优于所有正则化方法(右图)
原文地址:https://blog.csdn.net/qq_40206371/article/details/140440077
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。
本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:https://www.suanlizi.com/kf/1813496384301699072.html
如若内容造成侵权/违法违规/事实不符,请联系《酸梨子》网邮箱:1419361763@qq.com进行投诉反馈,一经查实,立即删除!