Word2Vector介绍

Word2Vector 2013
word2vec也叫word embeddings,中文名“词向量”,google开源的一款用于词向量计算的工具,作用就是将自然语言中的字词转为计算机可以理解的稠密向量。在word2vec出现之前,自然语言处理经常把字词转为离散的单独的符号,也就是One-Hot Encoder,为高维稀疏向量。使用Vector Representations可以有效解决这个问题。Word2Vec可以将One-Hot Encoder转化为低维度的连续值的稠密向量,并且其中意思相近的词将被映射到向量空间中相近的位置。word2vec词向量可以较好地表达不同词之间的相似和类比关系

Word2Vec是一种将文本中的词进行嵌入(Embedding)的方法,而所谓嵌入,就是将各个词使用一个定长的向量来表示,Embedding其实就是一个映射,将单词从原先所属的空间映射到新的多维空间中,也就是把原先词所在空间嵌入到一个新的空间中去。

word2vec主要分为CBOW(Continuous Bag of Words,连续词袋)和Skip-Gram(跳字模型)两种模式。
(1)CBOW是从原始语句推测目标字词;通过上下文推测目标词:A person who never input:a, who,never output label:person
(2)Skip-Gram正好相反,是从目标字词推测出原始语句。通过目标词预测上下文 input:person output label:a, who,never
CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。
可以推测,如果两个单词的上下文一样,那么意味着这两个单词也应该是相似的。通过这种方法,我们可以获得一个词的扩展词,即与其相似的词。

word2vec训练过程中的两个关键超参数是窗口大小和负样本的数量。

负例采样
较小的窗口大小(2-15),较大的窗口大小(15-50,甚至更多)
Gensim默认为5个负样本。

训练:
1.创建两个矩阵——Embedding矩阵和Context矩阵,这两个矩阵在我们的词汇表中嵌入了每个单词。随机值初始化这些矩阵。
2.计算输入嵌入与每个上下文嵌入的点积and sigmoid 。
3.停止训练过程,丢弃Context矩阵,并使用Embeddings矩阵作为下一项任务的已被训练好的嵌入。
4.增量训练:模型训练以后,会有新的语料,也就存在新词,这个时候新词用word2vec就得不到词向量,会报ovo(out vacbuary)的错误。需要重新训练模型,gensim就提供了一个很好的机制,就是增量训练,新词不用和旧词全部一起训练。

相关推荐

  1. Word2Vector介绍

    2024-01-04 10:36:09       67 阅读
  2. c++ vector介绍

    2024-01-04 10:36:09       34 阅读
  3. c++ std::vector介绍

    2024-01-04 10:36:09       43 阅读
  4. 「HDLBits题解」Vector2

    2024-01-04 10:36:09       65 阅读
  5. List接口(2)| Vector

    2024-01-04 10:36:09       31 阅读
  6. c++ vector数组详细介绍

    2024-01-04 10:36:09       39 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-04 10:36:09       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-04 10:36:09       100 阅读
  3. 在Django里面运行非项目文件

    2024-01-04 10:36:09       82 阅读
  4. Python语言-面向对象

    2024-01-04 10:36:09       91 阅读

热门阅读

  1. 客户投诉处理常用的ChatGPT通用提示词模板

    2024-01-04 10:36:09       71 阅读
  2. python 27例子(持续更新)

    2024-01-04 10:36:09       62 阅读
  3. 计算机网络期末复习题(一)

    2024-01-04 10:36:09       45 阅读
  4. Vue 3 中的 watch 函数:实战指南

    2024-01-04 10:36:09       46 阅读
  5. 阿里云服务器Alibaba Cloud Linux 3镜像版本大全说明

    2024-01-04 10:36:09       58 阅读
  6. 第四篇 行为型设计模式 - 灵活定义对象间交互

    2024-01-04 10:36:09       56 阅读
  7. 【Manacher】LeetCode-5. 最长回文子串

    2024-01-04 10:36:09       55 阅读