【神经网络与深度学习】循环神经网络基础

tokenization

tokenization:分词
每一个词语都是token
分词方法:转为单个词、转为多个词语

N-gram表示法

准备词语特征的方法
(把连续的N个词作为特征)
如 ”我爱你“——>[我,爱,你]
2-gram——[[我, 爱],[爱, 你]]

向量化

one-hot编码

每一个token都可以用一个N长度的向量表示,N为词空间不重复的词的个数

word embedding

使用浮点型的稠密向量表示token,向量通常为不同维度,向量里面每个值都是超参数,其初始值为随机生成的,之后会在训练过程中不断调整。
首先 把token用数字来表示,再把数字转换成向量。
token ——> num ——> vector

token num vector
词1 0 [w11, w12,…,w1N]
词2 1 [w21, w22,…,w2N]

在这里插入图片描述
api: nn.Embedding(词典大小, embedding的维度)

相关推荐

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-14 06:36:06       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-14 06:36:06       100 阅读
  3. 在Django里面运行非项目文件

    2024-04-14 06:36:06       82 阅读
  4. Python语言-面向对象

    2024-04-14 06:36:06       91 阅读

热门阅读

  1. yum源的运行和使用:

    2024-04-14 06:36:06       35 阅读
  2. docker-compose部署traefik负载本机docker-pxc集群

    2024-04-14 06:36:06       54 阅读
  3. 双向链表C语言实现

    2024-04-14 06:36:06       36 阅读
  4. 链表的奇偶重排

    2024-04-14 06:36:06       38 阅读
  5. python从命令行获取参数

    2024-04-14 06:36:06       40 阅读