工智能基础知识总结--词嵌入之Word2Vec

  1. 词嵌入要解决什么问题

    在自然语言系统中,词被看作最为基本的单元,如何将词进行向量化表示是一个很基本的问题,词嵌入(word embedding)就是把词映射为低维实数域向量的技术。

    下面先介绍几种词的离散表示技术,然后总结其缺点,最后介绍词的分布式表示及其代表技术(word2vec)。

  2. 词的离散表示

    • One-hot表示

      根据语料构造一个大小为V的词汇表,并为每一个词分配一个id。

      每个词都可以表示为一个V维向量,除了该词id对应的维度为1外,其余维度为0。

    • n-gram

      与One-hot类似,只是统计单元由单个的词变成了连续的几个词,如2-gram是统计连续的两个单词构造词典。

    • 离散表示的缺点

      • 词向量维度随着词汇表大小的增长而增长带来的内存问题;
      • 词向量过于稀疏,浪费内存,丢失信息;
      • 无法衡量词和词之间的关系。
  3. 词的分布式表示

    词的分布式表示的核心思想是:一个词是由这个词的周边词汇一起来构成精确的语义信息,因此可以用一个词附近的其他词来表示该词。词的分布式表示有以下几种代表方法:

    • 共现矩阵

      使用固定大小的滑窗统计词与词在窗口内的共现次数,然后将每个词表示为一个大小为V的矩阵,每个维度为该词与该维度对应词的共现次数。

      共现矩阵方法仍然会存在内存问题以及稀疏性问题。

    • Word2Vec

      谷歌2013年提出的Word2Vec是目前最常用的词嵌入模型之一,它实

相关推荐

  1. 智能基础知识总结--嵌入Word2Vec

    2024-01-17 22:32:01       51 阅读
  2. 智能基础知识总结--什么是AdaBoost

    2024-01-17 22:32:01       55 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-17 22:32:01       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-17 22:32:01       106 阅读
  3. 在Django里面运行非项目文件

    2024-01-17 22:32:01       87 阅读
  4. Python语言-面向对象

    2024-01-17 22:32:01       96 阅读

热门阅读

  1. word2vec中的CBOW和Skip-gram

    2024-01-17 22:32:01       54 阅读
  2. 深度解析 ThreadLocal 的多重应用场景

    2024-01-17 22:32:01       57 阅读
  3. C++ 并发编程 | 锁

    2024-01-17 22:32:01       47 阅读
  4. SpringBoot ES 聚合后多字段加减乘除

    2024-01-17 22:32:01       59 阅读
  5. ffmpeg 基础知识

    2024-01-17 22:32:01       54 阅读
  6. 京东云无线宝一代64G加速版刷机记录

    2024-01-17 22:32:01       196 阅读
  7. 每日coding

    2024-01-17 22:32:01       59 阅读