[论文笔记]ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING(上)

引言

今天带来苏神的旋转位置编码论文,ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING,论文题目翻译过来是基于旋转位置嵌入增强的Transformer:RoFormer。旋转位置编码被很多大模型架构采用。

位置编码对Transformer架构是至关重要的。它为不同位置的序列元素之间的依赖建模提供了有价值的监督。本文作者提出了一种名为Rotary Position Embedding(RoPE,旋转位置编码)的新方法,可以有效地利用位置信息。

具体而言,RoPE通过旋转矩阵编码绝对位置,并在自注意力机制中同时引入显式的相对位置依赖。值得注意的是,RoPE具有一些有价值的特性,包括序列长度的灵活性、相对距离增加时的递减的元素间依赖性以及为线性自注意力提供相对位置编码的能力。

RoFormer已经集成到Huggingface中:https://huggingface.co/docs/transformers/model_doc/roformer。

笔记比较长,因此分为上下两部分。

总体介绍

单词的顺序对于自然语言理解非常重要。最近,基于Transformer架构的预训练语言模型(PLM)在多种NLP任务上取得了SOTA结果。PLM利用自注意力机制捕获给定语料的上下文表示语义,同时在并行化与RNN相比取到了显著地改进。

当前PLM的自注意力架构已被证明与位置无关。因此,人们提出了各种方法来将位置信息编码到学习过程中。一方面,通过预定义函数生成绝对位置编码,将其添加到上下文表示中,而可训练的绝对位置编码也被提出。另一方面,之前的工作侧重于相对位置编码,通常将相对位置信息编码到注意

相关推荐

  1. 论文阅读笔记】清单

    2024-04-14 19:38:02       51 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-04-14 19:38:02       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-14 19:38:02       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-14 19:38:02       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-14 19:38:02       18 阅读

热门阅读

  1. springboot redission 自定义注解实现分布式锁

    2024-04-14 19:38:02       18 阅读
  2. LINUX【网络编程】UDP程序recvfrom接收数据

    2024-04-14 19:38:02       14 阅读
  3. elasticsearch不删除索引只清理数据——筑梦之路

    2024-04-14 19:38:02       14 阅读
  4. 【2024】elasticsearch的安装及使用建议

    2024-04-14 19:38:02       19 阅读
  5. 【React Router】初识路由(中)

    2024-04-14 19:38:02       15 阅读
  6. Verilog语法回顾--case语句

    2024-04-14 19:38:02       18 阅读
  7. go标准库和第三方库使用

    2024-04-14 19:38:02       15 阅读
  8. 华纳云:如何选择适合自己需求的备份服务器?

    2024-04-14 19:38:02       17 阅读
  9. Modbus-RTU通讯协议

    2024-04-14 19:38:02       14 阅读