GloVe: Global Vectors for Word Representation论文笔记解读

基本信息

作者 Jeffrey Pennington doi 10.3115/v1/D14-1162
发表时间 2014 期刊 EMNLP
网址 https://aclanthology.org/D14-1162.pdf

研究背景

1. What’s known 既往研究已证实
全局矩阵分解方法:LSA,考虑整个语料库词频的统计信息得到共现矩阵,通过矩阵分解得到潜在语义信息。【有效地利用了统计信息,但它们在单词类比任务上做得相对较差,这表明向量空间结构不是最优的。】

局部上下文窗口方法:skip-gram (以及cbow)。【在类比任务上做得更好,但它们很少利用语料库的统计数据,因为它们在单独的局部上下文窗口上训练,而不是在全局共出现计数上训练。】

2. What’s new 创新点
Glove模型:融合了当时最新的全局矩阵分解方法和局部文本框捕捉方法,即全局词向量表达,利用了全局词词共现矩阵中的非0数据来训练。

3. What’s are the implications 意义
这种新的词向量表达方法提高了很多NLP基础任务的准确率。

研究方法

1. GloVe
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
α 取值为0.75能得到最好的模型效果。

结果与讨论

  1. 该模型训练的高效性,且在语料库较小时,也能取得不错的效果。
  2. 窗口大小逐渐变大,GloVe词向量在语义任务表现最佳。
  3. 同时使用对称上下文对GloVe词向量在各个任务的表现有益处。

个人思考与启发

拓展学习:论文阅读 - Distributed Representations of Words
用来表示 word 的向量被称为 Embedding,因为这个词被嵌入到(embedded)了向量空间中。

重要图

文献中重要的图记录下来
图2:在类比任务上的准确性是向量大小和窗口大小/类型的函数。所有模型均在60亿令牌语料上进行训练。在( a )中,窗口大小为10 .在( b )和( c )中,向量大小为100。
展示了三个不同超参数对最终结果的影响。

第一个是保持窗口对称,且窗口大小固定的情况下,向量维度对最终模型表现的影响。可以看到最初随着维度增加,模型表现也愈佳,但是当维度增加到300以上后,模型表现没有很明显的变化。虽然semantic评估有略微增长,但是维度增加,对资源的消耗也会增加,所以考虑到成本,一般会选择300作为最终的维度。

第二个是指保持窗口对称,维度固定的情况下,窗口大小对模型的影响。

第三个是指窗口不对称,也就是说只考虑前面或者后面的单词,维度固定的情况下,窗口大小对模型的影响。
图4:词类比任务的总体正确率是训练时间的函数,它由GloVe的迭代次数和CBOW ( a )和skip - gram ( b )的负样本数决定。在所有情况下,我们在相同的6B token语料(维基百科2014 +千兆词5)上训练300维向量,词汇量相同为40万词,并使用大小为10的对称上下文窗口。
迭代次数越多越小,效果很稳定。

补充内容: 复习word2vec的核心思路

相关推荐

  1. 论文笔记 | ICLR 2023 WikiWhy:回答和解释因果问题

    2024-07-13 15:50:03       70 阅读
  2. 论文阅读笔记】清单

    2024-07-13 15:50:03       71 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-13 15:50:03       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-13 15:50:03       71 阅读
  3. 在Django里面运行非项目文件

    2024-07-13 15:50:03       58 阅读
  4. Python语言-面向对象

    2024-07-13 15:50:03       69 阅读

热门阅读

  1. express

    express

    2024-07-13 15:50:03      20 阅读
  2. 【笔记】修改centos7过期的官方镜像资源

    2024-07-13 15:50:03       22 阅读
  3. Python:正则表达式相关整理

    2024-07-13 15:50:03       20 阅读
  4. 开发指南048-前端模块版本

    2024-07-13 15:50:03       19 阅读
  5. AI工具网站

    2024-07-13 15:50:03       18 阅读
  6. 什么是ipc

    2024-07-13 15:50:03       22 阅读
  7. 红帽虚拟化REST API指导文档

    2024-07-13 15:50:03       22 阅读