什么是稀疏化

2024-07-13 21:10:04
开发
17

稀疏化一词来源于条件计算理念。在稠密模型中，所有参数都发挥作用，而稀疏化可以只运行整个系统的某些部分。

前文提到 Shazeer 对机器翻译中的 MoE 进行了探索。条件计算（网络中只有某些部分处于活动状态）使得在不增加计算量的情况下能够扩大模型的规模，因此，每层 MoE 都可以包含成千上万的专家网络。

但是这种设计带来了一些挑战。例如，虽然扩大 batch size 通常更有利于提高模型性能，但 MOE 中的 batch size 会随着数据在激活状态的专家网络中的流动而缩小。例如，如果 batch size 为 10 个 token，其中 5 个 token 可能在一个专家网络中结束，而另外 5 个 token 可能在 5 个不同的专家网络中结束，从而导致 batch size 大小不均和利用率不足的情况。

原文地址:https://blog.csdn.net/m0_61544805/article/details/140405163 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1812112254599041024.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

什么是稀疏化

2024-07-13 21:10:04 18 阅读
稀疏矩阵是什么如何求

2024-07-13 21:10:04 27 阅读
虚拟化是什么

2024-07-13 21:10:04 48 阅读
什么是池化层？

2024-07-13 21:10:04 52 阅读
什么是去中心化

2024-07-13 21:10:04 46 阅读
数据透明化是什么意思，什么是透明管理？

2024-07-13 21:10:04 43 阅读
什么是去中心化云计算？

2024-07-13 21:10:04 46 阅读
【FPGA/IC】什么是模块化设计？

2024-07-13 21:10:04 42 阅读
去中心化预言机是什么

2024-07-13 21:10:04 31 阅读
什么是去中心化，如何去中心化

2024-07-13 21:10:04 32 阅读

最近更新

题解 - 序列

2024-07-13 21:10:04 86 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-13 21:10:04 72 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-13 21:10:04 67 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-13 21:10:04 71 阅读
NoSQL之Redis非关系型数据库

2024-07-13 21:10:04 74 阅读
2024.7.22 作业

2024-07-13 21:10:04 74 阅读
GDB调试正在运行的程序

2024-07-13 21:10:04 59 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-13 21:10:04 60 阅读
在Django里面运行非项目文件

2024-07-13 21:10:04 58 阅读
SSD基本架构与工作原理

2024-07-13 21:10:04 64 阅读
在誉天学习完HCIE就业吗？

2024-07-13 21:10:04 71 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-13 21:10:04 61 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-13 21:10:04 65 阅读
go 协程池的实现

2024-07-13 21:10:04 64 阅读
Shell脚本循环语句与函数

2024-07-13 21:10:04 66 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-13 21:10:04 70 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-13 21:10:04 62 阅读
四大引用——强软弱虚

2024-07-13 21:10:04 67 阅读
Python语言-面向对象

2024-07-13 21:10:04 69 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-13 21:10:04 64 阅读
网站安全-CDN篇

2024-07-13 21:10:04 64 阅读

热门阅读

课程的概述

2024-07-13 21:10:04 20 阅读
Linux入门指令(2)[暑假提升]

2024-07-13 21:10:04 23 阅读
GuLi商城-商品服务-API-品牌管理-OSS获取服务端签名（续）

2024-07-13 21:10:04 14 阅读
centos清空history

2024-07-13 21:10:04 13 阅读
宪法学学习笔记(个人向) Part.5

2024-07-13 21:10:04 18 阅读
硅谷甄选4（项目主体）

2024-07-13 21:10:04 16 阅读
C++《日期》实现

2024-07-13 21:10:04 20 阅读
7.Seven Principles of Learning Better From Cognitive Science(1)7个基于认知科学的学习法则(一)

2024-07-13 21:10:04 15 阅读
278：vue+openlayer中根据半径、起始角度、中心点绘制弧线

2024-07-13 21:10:04 20 阅读
151. Reverse Words in a String

2024-07-13 21:10:04 19 阅读
Docker启动容器报错： unable to allocate file descriptor table - out of memory

2024-07-13 21:10:04 20 阅读
力扣--20. 有效的括号

2024-07-13 21:10:04 18 阅读
RC-u3 跑团机器人

2024-07-13 21:10:04 16 阅读
MySQL-MySQL数据类型

2024-07-13 21:10:04 20 阅读
渲染特效技术人员必须掌握的OpenGL的工作的底层原理及应用场景是什么

2024-07-13 21:10:04 19 阅读
C++基础(二）

2024-07-13 21:10:04 16 阅读
设计模式的七项原则

2024-07-13 21:10:04 21 阅读
ubuntu18.04创建共享文件夹

2024-07-13 21:10:04 16 阅读
总结单例模式的写法

2024-07-13 21:10:04 19 阅读
从零开始实现大语言模型（六）：因果注意力机制

2024-07-13 21:10:04 16 阅读
【Linux】Linux权限

2024-07-13 21:10:04 20 阅读
nacos集群搭建

2024-07-13 21:10:04 19 阅读
力扣2381.字母移位II

2024-07-13 21:10:04 20 阅读
使用uni-app和Golang开发影音类小程序

2024-07-13 21:10:04 20 阅读
Transformer模型：WordEmbedding实现

2024-07-13 21:10:04 16 阅读
【Qt 初识】QPushButton 的详解以及 Qt 中的坐标

2024-07-13 21:10:04 19 阅读
stm32高级定时器

2024-07-13 21:10:04 16 阅读
亚马逊erp有店铺不知道怎么上传产品的看过来！

2024-07-13 21:10:04 21 阅读
【STM32】MDK的编译过程及文件类型全解

2024-07-13 21:10:04 16 阅读
解锁甘肃平凉传统面制品，大烤馍来袭

2024-07-13 21:10:04 15 阅读