多模态基础--- word Embedding

1 word Embedding

原始的单词编码方式:
one-hot,维度太大,不同单词之间相互独立,没有远近关系区分。
wordclass,将同一类单词编码在一起,此时丢失了类别和类别间的相关信息,比如class1和class3都属于生物

word Embedding编码方式:
将每个word映射到高维向量上
在这里插入图片描述

1.1 word Embedding方式

word Embedding主要有两种方法:
count based:
通过阅读大量的文章,比较不同的词汇后面跟随的内容一致性判断该两个词汇的相关性。
例:乔丹在NBA打球《===》科比在NBA打球

prediction based:
如下图,输入为Wi-1这个单词,通过神经网络,输出为不同的词汇中下个单词为Wi的概率。
取第一个隐藏层 Z作为word的编码
在这里插入图片描述

由于只依靠前一个单词预测后面的单词,这很困难,因此可以选择前面的多个单词来预测后面的单词。
我们将输入的单词Xi-2和Xi-1
在这里插入图片描述

相关推荐

  1. 】ALBEF

    2024-02-16 08:34:01       66 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-02-16 08:34:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-02-16 08:34:01       100 阅读
  3. 在Django里面运行非项目文件

    2024-02-16 08:34:01       82 阅读
  4. Python语言-面向对象

    2024-02-16 08:34:01       91 阅读

热门阅读

  1. C# 随机打乱数组

    2024-02-16 08:34:01       56 阅读
  2. 五个编程原则:Rob Pike‘s 5 Rules of Programming

    2024-02-16 08:34:01       53 阅读
  3. Codeforces Round 925 (Div. 3)

    2024-02-16 08:34:01       62 阅读
  4. Linux常用指令总结

    2024-02-16 08:34:01       54 阅读
  5. Go语言开发小技巧&易错点100例(十二)

    2024-02-16 08:34:01       58 阅读
  6. B3638 T1 三角形面积

    2024-02-16 08:34:01       51 阅读
  7. 蓝桥杯(Web大学组)2022省赛真题:展开你的扇子

    2024-02-16 08:34:01       53 阅读
  8. C语言系列6——指针:C语言的精髓之一

    2024-02-16 08:34:01       52 阅读
  9. C++ STL:list和vector的比较

    2024-02-16 08:34:01       59 阅读