【笔记】非Transformer结构

RWKV、 Mamba 和 S4

一是以 RWKV、 Mamba 和 S4 为代表,它们完全用 recurrent(循环)结构去替代 attention。这种思路是用一个固定的内存记住前面的信息,但目前看来虽然可以记住一定长度,但要达到更长的长度是有难度的。

RWKV 是国产开源的首个非 Transformer 架构的大语言模型,目前已经迭代至第六代 RWKV-6。RWKV 的作者彭博在 2022 年 5 月开始训练 RWKV-2,当时只有 1 亿(100M)参数规模,后续在 2023 年 3 月又训练出了 RWKV-4 140亿(14B)的参数版本。

RWKV 用 linear attention(线性注意力机制) 去近似 full attention,试图结合 RNN 和 Transformer 的优点,同时规避两者的缺点,来缓解 Transformer 所带来的内存瓶颈和二次方扩展问题,实现更有效的线性扩展,同时提供并行训练和可扩展性,类似于 Transformer。

Mega

还有一个流派是把 full attention 这种密集结构变得稀疏,例如 Meta 的 Mega,在之后的计算中不再需要算所有 attention 矩阵中的每一个元素,模型效率也随之变高。

RetNet

RetNet 的推理成本与长度无关。对于 7B 模型和 8k 序列长度,RetNet 的解码速度是带键值缓存的 Transformers 的 8.4 倍,内存节省 70%。

Yan

Yan 跟线性的 Attention 和 RNN 没有任何关系,Yan 架构的大模型去除了 Transformer 中高成本的注意力机制,代之以计算量更小、难度更低的线性计算。

评测

当下非 Transformer 研究面临的阻碍之一是评估方式——单纯看Perplexity(困惑度),非 transformer 其实跟 Transformer 的模型相比没有差距,但很多实际能力 (如in-context copy and retrieval)依然差距很大。

相关推荐

  1. 笔记Transformer结构

    2024-04-27 11:18:01       25 阅读
  2. [论文笔记] Transformer-XL

    2024-04-27 11:18:01       39 阅读
  3. Transformer 论文阅读笔记

    2024-04-27 11:18:01       58 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-27 11:18:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-27 11:18:01       100 阅读
  3. 在Django里面运行非项目文件

    2024-04-27 11:18:01       82 阅读
  4. Python语言-面向对象

    2024-04-27 11:18:01       91 阅读

热门阅读

  1. 安全作业-1

    2024-04-27 11:18:01       28 阅读
  2. DevOps(十六)Nexus二进制仓库与Jenkins

    2024-04-27 11:18:01       34 阅读
  3. 商城数据库(33-36)

    2024-04-27 11:18:01       34 阅读
  4. ModuleNotFoundError: No module named ‘pyautogui‘

    2024-04-27 11:18:01       27 阅读
  5. MATLAB初学者入门(19)—— 均值算法

    2024-04-27 11:18:01       32 阅读
  6. 8086:qemu执行汇编

    2024-04-27 11:18:01       34 阅读
  7. 学习前端二十八天(数组方法)

    2024-04-27 11:18:01       34 阅读
  8. hwte git GitHub

    2024-04-27 11:18:01       36 阅读
  9. React 15~18每个阶段更新了什么

    2024-04-27 11:18:01       36 阅读
  10. 并查集(Union-Find)

    2024-04-27 11:18:01       36 阅读