【IntermLM2】学习笔记

微调方式
在大模型的下游应用中,可以有两种微调方式

  1. 增量续训
    即无监督的方式,让模型学习一些新知识,比如某些垂直领域的新知识
    使用的数据有:书籍,文章,代码等
  2. 有监督微调
    为了让模型学会理解指令进行对话,或者注入少量的领域知识
    使用的数据为高质量的对话和问答的数据
    全量参数微调
    部分参数微调 (lora等)

扩展上下文长度
必要性:
1. 检索增强生成(RAG)需要检索的时候返回很长的上下文
2. Agent应用时,用户的历史对话数据很长

LLaMA的transformer的更新

  1. 将 LayerNorm (Ba et al., 2016) 替换为 RMSNorm (Zhang & Sennrich, 2019)
  2. 将激活函数设置为 SwiGLU (Shazeer, 2020)

相关推荐

  1. IntermLM2学习笔记

    2024-04-01 17:16:03       39 阅读
  2. <span style='color:red;'>InternlM</span><span style='color:red;'>2</span>

    InternlM2

    2024-04-01 17:16:03      38 阅读
  3. 了解一下InternLM2

    2024-04-01 17:16:03       55 阅读
  4. LLM_InterLM-Demo学习

    2024-04-01 17:16:03       71 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-01 17:16:03       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-01 17:16:03       100 阅读
  3. 在Django里面运行非项目文件

    2024-04-01 17:16:03       82 阅读
  4. Python语言-面向对象

    2024-04-01 17:16:03       91 阅读

热门阅读

  1. 如何塑造与适应未来工作模式,迈向 AI 新纪元?

    2024-04-01 17:16:03       42 阅读
  2. datalist是什么,有什么作用?

    2024-04-01 17:16:03       40 阅读
  3. 深入解析Oracle数据库中的外连接 (OUTER JOIN)

    2024-04-01 17:16:03       42 阅读
  4. AMBE-2000

    2024-04-01 17:16:03       41 阅读
  5. C++ | 隐藏实现pimpl(pointer to implementation)

    2024-04-01 17:16:03       34 阅读
  6. centos7 安装es8.12.0

    2024-04-01 17:16:03       32 阅读
  7. 蓝桥杯算法记录

    2024-04-01 17:16:03       43 阅读