【IntermLM2】学习笔记

2024-04-01 17:16:03
开发
38

微调方式
在大模型的下游应用中，可以有两种微调方式

增量续训
即无监督的方式，让模型学习一些新知识，比如某些垂直领域的新知识
使用的数据有：书籍，文章，代码等
有监督微调
为了让模型学会理解指令进行对话，或者注入少量的领域知识
使用的数据为高质量的对话和问答的数据
全量参数微调
部分参数微调（lora等）

扩展上下文长度
必要性：
1. 检索增强生成（RAG）需要检索的时候返回很长的上下文
2. Agent应用时，用户的历史对话数据很长

LLaMA的transformer的更新

将 LayerNorm （Ba et al.， 2016）替换为 RMSNorm （Zhang & Sennrich， 2019）
将激活函数设置为 SwiGLU （Shazeer， 2020）

原文地址:https://blog.csdn.net/a61022706/article/details/137207579 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1774727412886671360.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

【IntermLM2】学习笔记

2024-04-01 17:16:03 39 阅读
InternLM2-lesson2笔记

2024-04-01 17:16:03 33 阅读
Openmmalb InternLm2.0笔记

2024-04-01 17:16:03 39 阅读
InternLM2-lesson3作业+笔记

2024-04-01 17:16:03 35 阅读
InternlM2

2024-04-01 17:16:03 38 阅读
【InternLM 笔记】使用InternLM2-chat-1.8b制作时事问答知识库

2024-04-01 17:16:03 35 阅读
了解一下InternLM2

2024-04-01 17:16:03 55 阅读
InternLM2大模型

2024-04-01 17:16:03 27 阅读
LLM_InterLM-Demo学习

2024-04-01 17:16:03 71 阅读
【InternLM 实战营第二期笔记】书生·浦语大模型全链路开源体系及InternLM2技术报告笔记

2024-04-01 17:16:03 41 阅读

最近更新

题解 - 序列

2024-04-01 17:16:03 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-04-01 17:16:03 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-04-01 17:16:03 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-04-01 17:16:03 100 阅读
NoSQL之Redis非关系型数据库

2024-04-01 17:16:03 101 阅读
2024.7.22 作业

2024-04-01 17:16:03 98 阅读
GDB调试正在运行的程序

2024-04-01 17:16:03 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-04-01 17:16:03 85 阅读
在Django里面运行非项目文件

2024-04-01 17:16:03 82 阅读
SSD基本架构与工作原理

2024-04-01 17:16:03 87 阅读
在誉天学习完HCIE就业吗？

2024-04-01 17:16:03 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-04-01 17:16:03 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-04-01 17:16:03 85 阅读
go 协程池的实现

2024-04-01 17:16:03 89 阅读
Shell脚本循环语句与函数

2024-04-01 17:16:03 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-04-01 17:16:03 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-04-01 17:16:03 85 阅读
四大引用——强软弱虚

2024-04-01 17:16:03 86 阅读
Python语言-面向对象

2024-04-01 17:16:03 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-04-01 17:16:03 85 阅读
网站安全-CDN篇

2024-04-01 17:16:03 89 阅读

热门阅读

如何塑造与适应未来工作模式，迈向 AI 新纪元？

2024-04-01 17:16:03 42 阅读
5.vector容器的使用

2024-04-01 17:16:03 35 阅读
[leetcode] 100. 相同的树

2024-04-01 17:16:03 41 阅读
计算机网络——30SDN控制平面

2024-04-01 17:16:03 37 阅读
http模块设置资源类型（mime类型）

2024-04-01 17:16:03 45 阅读
集中监控：网络设备、安全设备、服务器以及各类业务系统一体化运维

2024-04-01 17:16:03 40 阅读
rtph264depay插件分析笔记

2024-04-01 17:16:03 33 阅读
什么是HTTP? HTTP 和 HTTPS 的区别?

2024-04-01 17:16:03 30 阅读
Linux系统Docker如何部署Nextcloud结合内网穿透实现公网访问本地资源？

2024-04-01 17:16:03 41 阅读
【C++】list介绍

2024-04-01 17:16:03 41 阅读
datalist是什么，有什么作用？

2024-04-01 17:16:03 40 阅读
android WMS服务

2024-04-01 17:16:03 31 阅读
深入解析Oracle数据库中的外连接 (OUTER JOIN)

2024-04-01 17:16:03 42 阅读
QT QInputDialog弹出消息框用法

2024-04-01 17:16:03 34 阅读
AMBE-2000

2024-04-01 17:16:03 41 阅读
扫码预约登记怎么做？表单二维码在线制作技巧

2024-04-01 17:16:03 37 阅读
环境配置——已解决ModuleNotFoundError: No module named ‘cv2’（python）

2024-04-01 17:16:03 37 阅读
Nginx第三方模块---nginx-sticky-module的使用（基于cookie的会话保持）

2024-04-01 17:16:03 35 阅读
C++ | 隐藏实现pimpl(pointer to implementation)

2024-04-01 17:16:03 34 阅读
python3——基础概要

2024-04-01 17:16:03 33 阅读
centos7 安装es8.12.0

2024-04-01 17:16:03 32 阅读
蓝桥杯算法记录

2024-04-01 17:16:03 43 阅读
【C++】入门C++（下）

2024-04-01 17:16:03 36 阅读
每日一题（相交链表）

2024-04-01 17:16:03 36 阅读
数据结构--静态链表（C语言实现）

2024-04-01 17:16:03 37 阅读
8、Pandas 绘图

2024-04-01 17:16:03 30 阅读
EtherCAT主站SOEM -- 21 --Qt-Soem通过 CST模式（周期同步力矩模式）控制一个电机转圈圈

2024-04-01 17:16:03 32 阅读
C++11标准 - 声明（auto，decltype，nullptr）

2024-04-01 17:16:03 36 阅读
LLM--提示词Propmt的概念、作用及如何设计提示词

2024-04-01 17:16:03 32 阅读
如何开始定制你自己的大型语言模型

2024-04-01 17:16:03 37 阅读