Transformer
- MHA的好处:Multi head attention能够让模型关注到不同的信息,增强表达能力,提高模型性能;
- 时间复杂度是O(N2),因为每个词都需要和其他所有词进行Attention操作,所以是N2。
CNN
- 卷积核权值共享,因此具有平移不变性,减少参数量
- 为什么基本不用大卷积核了?(1)大卷积核参数量更大;(2)计算更复杂;(3)可以用多个小卷积核进行平替,且非线性效果好。
激活函数
sigmoid
- 经常用于分类场景,作为概率输出
relu
- 经常作为隐藏层激活函数,缓解梯度消失
- 为什么不能完全解决梯度消失:小于0的部分没有梯度,传播受限;
损失函数
- 为什么会出现loss spike:loss spike是一种训练过程中loss突然猛烈增大的现象。可能原因是模型浅层参数和深层参数会形成依赖关系,但是一般浅层参数变化慢,深层参数变化快,当深层参数和浅层参数逐渐匹配后,loss逐渐减小;但是如果突然输入一个分布很不一样的训练数据,浅层参数有一定变化,导致下游数据分布变化较大,深层参数不匹配,导致模型突然出现较高loss。参考:https://blog.csdn.net/qq_27590277/article/details/135493299
需要能够
- 手写MHA
原文地址:https://blog.csdn.net/eepii/article/details/140268676
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。
本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:https://www.suanlizi.com/kf/1810950101208797184.html
如若内容造成侵权/违法违规/事实不符,请联系《酸梨子》网邮箱:1419361763@qq.com进行投诉反馈,一经查实,立即删除!