Transformer的前世今生 day02(神经网络语言模型
- 开发
- 17
-
神经网络语言模型
- 使用神经网络的方法,去完成语言模型的两个问题,下图为两层感知机的神经网络语言模型:
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/55d29207777549a0b473682f8ba596e4.png)
以下为预备概念
感知机
- 线性模型可以用下图来表示:输入经过线性层得到输出
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/0b9aa5217af64284ab3ce4fa2a5aeac0.png)
- 线性层 / 全连接层 / 稠密层:假设输入有n个,输出有m个,则w、b、y的个数如下:
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/41f86c913a96468fb40345c71698e800.png)
独热编码
- 目的是让计算机认识单词
- 用矩阵的形式,存储所有单词。且在矩阵中,每一个元素都代表一个单词,这就要求矩阵的行列等于单词数,如下图:
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/da59e6903ea248bc9c4a458ed175ae1e.png)
- 独热编码有两个缺点:
- 矩阵的尺寸很容易过大,因为他需要行列等于单词数
- 相似单词之间的独热编码没有任何关联,通常使用余弦相似度来计算文本之间的相似度,但是现实世界中相似单词之间是有关联的
原文地址:https://blog.csdn.net/u011453680/article/details/136790452
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。
本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:https://www.suanlizi.com/kf/1769498464615534592.html
如若内容造成侵权/违法违规/事实不符,请联系《酸梨子》网邮箱:1419361763@qq.com进行投诉反馈,一经查实,立即删除!