LLM - 绝对与相对位置编码 与 RoPE 旋转位置编码 源码

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/140281680

免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。


RoPE

Transformer 是基于 MHSA (多头自注意力),然而,MHSA 对于位置是不敏感的,需要添加位置编码 (PE),PE即类别变量,索引,也是基于索引的 Embedding,包括两种,一种是绝对位置编码 (Transformer默认的位置编码),一种是相对位置编码,最新的是旋转位置编码 (Rotary Position Embedding)。

  • 独立位置编码,即位置 i 与位置 j 是独立表征的,没有任何约束或者依赖。Transformer 的论文是基于正弦和余弦函数的角度递增,表示每个位置编码。随机初始化一个 Embedding 矩阵或者 Embedding Table 来表示,在模型的训练过程中,跟着模型的其他参数一起学习与更新,即随机的位置编码。无论哪种位置编码,都是通过与 Token Embedding

相关推荐

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-11 07:20:04       101 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-11 07:20:04       108 阅读
  3. 在Django里面运行非项目文件

    2024-07-11 07:20:04       91 阅读
  4. Python语言-面向对象

    2024-07-11 07:20:04       98 阅读

热门阅读

  1. 如何理解李彦宏说的“不要卷模型,要卷应用”

    2024-07-11 07:20:04       27 阅读
  2. 第一节 SHELL脚本中的常用命令(2)

    2024-07-11 07:20:04       24 阅读
  3. Python编程实例-处理Linux/UNIX系统中的信号

    2024-07-11 07:20:04       31 阅读
  4. 构造函数语意学(The Semantics of Constructors)

    2024-07-11 07:20:04       28 阅读
  5. PostgreSQL关闭数据库服务的三种模式

    2024-07-11 07:20:04       27 阅读
  6. 聚类方法K-means和DBSCAN,附matlab代码

    2024-07-11 07:20:04       25 阅读
  7. mysql默认开启索引下推,减少回表的数据

    2024-07-11 07:20:04       25 阅读
  8. Spring Boot项目Jar包加密详解

    2024-07-11 07:20:04       30 阅读
  9. 云端足迹:在iCloud中同步您的地图标记和路线

    2024-07-11 07:20:04       28 阅读
  10. Spring Boot(八十):Tesseract实现图片文字自动识别

    2024-07-11 07:20:04       25 阅读
  11. 5-2.模型层

    2024-07-11 07:20:04       20 阅读
  12. 一键安装ros及出现问题的解决方案

    2024-07-11 07:20:04       27 阅读