论文略读：LoRA Learns Less and Forgets Less

2024-07-17 16:50:06
开发
18

202405 arxiv

1 主要思想

LORA相比于全参数训练，学的少，但忘的也少

2 实验分析

2.1 训练的表现

在编程和数学任务中，LoRA相比全参数微调表现出明显的劣势

2.2 遗忘的表现

这边的遗忘，是指在数据集A上预训练，然后在数据集B上继续finetune，看在数据集A上的表现
相比全参数微调，LoRA学会的东西较少，但遗忘也相对更少

3 论文的分析：Lora的正则化特性

LoRA提供了比经典正则化技术，如权重衰减和dropout，更强的正则化效果。
在下游任务上LoRA的表现低于大多数正则化方法（左图）；在遗忘上LoRA优于所有正则化方法（右图）

原文地址:https://blog.csdn.net/qq_40206371/article/details/140440077 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1813496384301699072.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-07-17 16:50:06 86 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-17 16:50:06 72 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-17 16:50:06 67 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-17 16:50:06 71 阅读
NoSQL之Redis非关系型数据库

2024-07-17 16:50:06 74 阅读
2024.7.22 作业

2024-07-17 16:50:06 74 阅读
GDB调试正在运行的程序

2024-07-17 16:50:06 59 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-17 16:50:06 60 阅读
在Django里面运行非项目文件

2024-07-17 16:50:06 58 阅读
SSD基本架构与工作原理

2024-07-17 16:50:06 64 阅读
在誉天学习完HCIE就业吗？

2024-07-17 16:50:06 71 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-17 16:50:06 61 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-17 16:50:06 65 阅读
go 协程池的实现

2024-07-17 16:50:06 64 阅读
Shell脚本循环语句与函数

2024-07-17 16:50:06 66 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-17 16:50:06 70 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-17 16:50:06 62 阅读
四大引用——强软弱虚

2024-07-17 16:50:06 67 阅读
Python语言-面向对象

2024-07-17 16:50:06 69 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-17 16:50:06 64 阅读
网站安全-CDN篇

2024-07-17 16:50:06 64 阅读

热门阅读

应急灯升压恒流芯片IC-H6901B支持2.7V3.7V升72V80V100V 300W大功率

2024-07-17 16:50:06 21 阅读
【MySQL进阶篇】索引

2024-07-17 16:50:06 15 阅读
Azure Repos 仓库管理

2024-07-17 16:50:06 19 阅读
【K8s】专题七（2）：Kubernetes 服务发现之 Ingress

2024-07-17 16:50:06 21 阅读
Qt中 .pro、.pri、.prf、.prl文件简解

2024-07-17 16:50:06 22 阅读
【14】水仙花数

2024-07-17 16:50:06 19 阅读
Docker--harbor私有仓库部署与管理

2024-07-17 16:50:06 18 阅读
vue3项目，管控部分路由仅管理员可见

2024-07-17 16:50:06 18 阅读
django-vue-admin项目运行

2024-07-17 16:50:06 20 阅读
乡下人的悲歌书籍pdf下载

2024-07-17 16:50:06 22 阅读
OpenSBI环境搭建

2024-07-17 16:50:06 19 阅读
ES6基本语法（二）——函数与数组

2024-07-17 16:50:06 20 阅读
让飞行安全更有保障：航空院校电源设备选购指南

2024-07-17 16:50:06 18 阅读
用户密码强度分析：59%的密码可以在一小时内被猜出

2024-07-17 16:50:06 20 阅读
WebGoC题解(11) 627.传声(2019NHOI小乙)

2024-07-17 16:50:06 19 阅读
Jupyter Notebook 一些常用的快捷键

2024-07-17 16:50:06 19 阅读
在国产芯片上实现YOLOv5/v8图像AI识别-专栏目录及必备知识点及相关设备

2024-07-17 16:50:06 24 阅读
Qt第十二章样式表

2024-07-17 16:50:06 21 阅读
linux 修改hostname

2024-07-17 16:50:06 23 阅读
【Oracle】Oracle语法之递归查询

2024-07-17 16:50:06 19 阅读
一五六、Node+Vue 使用七牛上传图片，并配置个人域名

2024-07-17 16:50:06 16 阅读
C++基础练习 - Chapter 3

2024-07-17 16:50:06 17 阅读
Spring Security Oauth2源码分析

2024-07-17 16:50:06 16 阅读
【FPGA】优雅地使用ILA进行FPGA硬件调试

2024-07-17 16:50:06 20 阅读
【深度学习】BeautyGAN: 美妆，化妆，人脸美妆

2024-07-17 16:50:06 18 阅读
windows11 使用pytorch transformers运行Qwen2-0.5B-Instruct模型 (基于anaconda python虚拟环境管理平台)

2024-07-17 16:50:06 25 阅读
PDF压缩软件电脑版电脑pdf压缩怎么压缩文件

2024-07-17 16:50:06 21 阅读
Python与MQTT：构建物联网通信的桥梁

2024-07-17 16:50:06 23 阅读
Mysql基础与安装

2024-07-17 16:50:06 18 阅读
如何成为一个厉害的人

2024-07-17 16:50:06 21 阅读