深度学习进阶

Transformer

  1. MHA的好处:Multi head attention能够让模型关注到不同的信息,增强表达能力,提高模型性能;
  2. 时间复杂度是O(N2),因为每个词都需要和其他所有词进行Attention操作,所以是N2。

CNN

  1. 卷积核权值共享,因此具有平移不变性,减少参数量
  2. 为什么基本不用大卷积核了?(1)大卷积核参数量更大;(2)计算更复杂;(3)可以用多个小卷积核进行平替,且非线性效果好。

激活函数

sigmoid

  1. 经常用于分类场景,作为概率输出

relu

  1. 经常作为隐藏层激活函数,缓解梯度消失
  2. 为什么不能完全解决梯度消失:小于0的部分没有梯度,传播受限;

损失函数

  1. 为什么会出现loss spike:loss spike是一种训练过程中loss突然猛烈增大的现象。可能原因是模型浅层参数和深层参数会形成依赖关系,但是一般浅层参数变化慢,深层参数变化快,当深层参数和浅层参数逐渐匹配后,loss逐渐减小;但是如果突然输入一个分布很不一样的训练数据,浅层参数有一定变化,导致下游数据分布变化较大,深层参数不匹配,导致模型突然出现较高loss。参考:https://blog.csdn.net/qq_27590277/article/details/135493299

需要能够

  1. 手写MHA

相关推荐

  1. 深度学习

    2024-07-10 16:12:05       7 阅读
  2. Python NLP深度学习:自然语言处理

    2024-07-10 16:12:05       30 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-10 16:12:05       5 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-10 16:12:05       5 阅读
  3. 在Django里面运行非项目文件

    2024-07-10 16:12:05       4 阅读
  4. Python语言-面向对象

    2024-07-10 16:12:05       5 阅读

热门阅读

  1. 提示学习的本质是KNN

    2024-07-10 16:12:05       12 阅读
  2. Tomcat

    Tomcat

    2024-07-10 16:12:05      11 阅读
  3. pytorch 源码阅读(1)——torch.complie

    2024-07-10 16:12:05       6 阅读
  4. weapp.socket.io.js

    2024-07-10 16:12:05       6 阅读
  5. 内网和外网的区别及应用

    2024-07-10 16:12:05       14 阅读
  6. Symfony Monorepo:一站式开发的艺术与实践

    2024-07-10 16:12:05       12 阅读
  7. Docker 深度分析与选型指南

    2024-07-10 16:12:05       12 阅读
  8. 深度学习 - 模型剪枝技术详解

    2024-07-10 16:12:05       8 阅读
  9. 基于单片机的火灾自动报警器研究

    2024-07-10 16:12:05       9 阅读
  10. linux从入门到精通

    2024-07-10 16:12:05       9 阅读
  11. 小程序-自定义导航栏

    2024-07-10 16:12:05       7 阅读
  12. Redis在项目中的17种使用场景

    2024-07-10 16:12:05       11 阅读
  13. 使用 Vue.js 和 Element Plus 实现自动完成搜索功能

    2024-07-10 16:12:05       10 阅读