【神经网络与深度学习】循环神经网络基础

2024-04-14 06:36:06
开发
34

tokenization

tokenization：分词
每一个词语都是token
分词方法：转为单个词、转为多个词语

N-gram表示法

准备词语特征的方法
（把连续的N个词作为特征）
如 ”我爱你“——>[我，爱，你]
2-gram——[[我，爱],[爱，你]]

向量化

one-hot编码

每一个token都可以用一个N长度的向量表示，N为词空间不重复的词的个数

word embedding

使用浮点型的稠密向量表示token，向量通常为不同维度，向量里面每个值都是超参数，其初始值为随机生成的，之后会在训练过程中不断调整。
首先把token用数字来表示，再把数字转换成向量。
token ——> num ——> vector

token	num	vector
词1	0	[w11, w12,…,w1N]
词2	1	[w21, w22,…,w2N]

在这里插入图片描述
api: nn.Embedding(词典大小， embedding的维度)

原文地址:https://blog.csdn.net/vox520/article/details/137717405 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1779277408436883456.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部