什么是稀疏化

稀疏化一词来源于条件计算理念。在稠密模型中,所有参数都发挥作用,而稀疏化可以只运行整个系统的某些部分。

前文提到 Shazeer 对机器翻译中的 MoE 进行了探索。条件计算(网络中只有某些部分处于活动状态)使得在不增加计算量的情况下能够扩大模型的规模,因此,每层 MoE 都可以包含成千上万的专家网络。

但是这种设计带来了一些挑战。例如,虽然扩大 batch size 通常更有利于提高模型性能,但 MOE 中的 batch size 会随着数据在激活状态的专家网络中的流动而缩小。例如,如果 batch size 为 10 个 token,其中 5 个 token 可能在一个专家网络中结束,而另外 5 个 token 可能在 5 个不同的专家网络中结束,从而导致 batch size 大小不均和利用率不足的情况。

相关推荐

  1. 什么稀疏

    2024-07-13 21:10:04       18 阅读
  2. 虚拟什么

    2024-07-13 21:10:04       48 阅读
  3. 什么层?

    2024-07-13 21:10:04       52 阅读
  4. 什么去中心

    2024-07-13 21:10:04       46 阅读
  5. 去中心预言机什么

    2024-07-13 21:10:04       31 阅读
  6. 什么去中心,如何去中心

    2024-07-13 21:10:04       32 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-13 21:10:04       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-13 21:10:04       71 阅读
  3. 在Django里面运行非项目文件

    2024-07-13 21:10:04       58 阅读
  4. Python语言-面向对象

    2024-07-13 21:10:04       69 阅读

热门阅读

  1. centos清空history

    2024-07-13 21:10:04       13 阅读
  2. 宪法学学习笔记(个人向) Part.5

    2024-07-13 21:10:04       18 阅读
  3. C++《日期》实现

    2024-07-13 21:10:04       20 阅读
  4. 151. Reverse Words in a String

    2024-07-13 21:10:04       19 阅读
  5. 力扣--20. 有效的括号

    2024-07-13 21:10:04       18 阅读
  6. RC-u3 跑团机器人

    2024-07-13 21:10:04       16 阅读
  7. 设计模式的七项原则

    2024-07-13 21:10:04       21 阅读
  8. 力扣2381.字母移位II

    2024-07-13 21:10:04       20 阅读
  9. Transformer模型:WordEmbedding实现

    2024-07-13 21:10:04       16 阅读
  10. stm32高级定时器

    2024-07-13 21:10:04       16 阅读