Transformer的前世今生 day01(预训练

预训练

  • 在相似任务中,由于神经网络模型的浅层是通用的,如下图:
    在这里插入图片描述
  • 所以当我们的数据集不够大,不能产生性能良好的模型时,可以尝试让模型B在用模型A的浅层基础上,深层的部分自己生成参数,减小数据集的压力
  • 使用模型A的浅层来实现任务B,由两种方式:
    • 冻结(frozen):浅层参数不变
    • 微调(Fine-Tuning):浅层参数会跟着任务B的训练而改变
      在这里插入图片描述
  • 总结:一个任务A,一个任务B,两者极其相似,任务A已经通过大数据集训练出一个模型A,使用模型A的浅层参数去训练任务B,得到模型B。

相关推荐

  1. chatGPT前世今生

    2024-03-16 14:22:02       28 阅读
  2. WinForm前世今生

    2024-03-16 14:22:02       8 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-03-16 14:22:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-03-16 14:22:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-03-16 14:22:02       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-03-16 14:22:02       20 阅读

热门阅读

  1. 解决C#连接MySQL数据库报错: SslMode=None;

    2024-03-16 14:22:02       20 阅读
  2. 工大智信智能听诊器:科技创新,赋能医疗

    2024-03-16 14:22:02       20 阅读
  3. 【DP+贪心】跳跃游戏

    2024-03-16 14:22:02       21 阅读
  4. SPA富应用开发

    2024-03-16 14:22:02       18 阅读
  5. CSS中三栏布局的实现

    2024-03-16 14:22:02       20 阅读
  6. vue怎么跳转页面?

    2024-03-16 14:22:02       20 阅读
  7. H12-821_279

    2024-03-16 14:22:02       20 阅读
  8. LeeCode 1896 括号树 + 树形 DP

    2024-03-16 14:22:02       21 阅读