Transformer中Layer Normalization及其在推理时如何作用？

2024-07-17 11:38:05
开发
24

在Transformer中，Layer Normalization是一种正则化技术，旨在提高模型的训练速度和稳定性。它的详细过程和在推理时的作用可以分为以下几个部分：

1. Layer Normalization的过程

Layer Normalization主要用于标准化每个输入Token的特征向量，使其均值为0，方差为1。具体步骤如下：

计算均值：
对于输入向量 $\in \mathbb{R}^d$ （维度为 $d$ ）： $\mu = \frac{1}{d} \sum_{i=1}^{d} x_i$
计算方差： $\sigma^2 = \frac{1}{d} \sum_{i=1}^{d} (x_i - \mu)^2$
标准化： $\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}} \quad \text{for } i = 1, 2, \ldots, d$ 其中， $\epsilon$ 是一个小常数，防止除以零。
缩放和偏移：
使用可学习的参数 $\gamma$ 和 $\beta$ 进行缩放和偏移： $y_i = \gamma \hat{x}_i + \beta$

2. Layer Normalization在推理时的作用

在推理阶段，Layer Normalization的行为如下：

保持参数不变：
在推理阶段， $\gamma$ 和 $\beta$ 的值保持不变，直接使用训练阶段学到的参数。这意味着模型在推理时依赖于训练期间学习到的特征缩放和偏移方式。
标准化操作：
对于每个Token，其特征向量在推理时会执行标准化操作，具体步骤与训练阶段相同。每个Token的特征向量在输入到下一层之前会被独立标准化，从而确保模型对输入数据的响应更加一致。
提高推理效率和稳定性：
通过Layer Normalization，推理时的输入数据经过标准化，减少了因输入特征分布变化引起的不稳定性。这有助于保持模型在不同输入下的表现一致性，尤其是在处理长文本或复杂结构时。

原文地址:https://blog.csdn.net/Zzzzyc_/article/details/140451991 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1813417862849761280.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-07-17 11:38:05 86 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-17 11:38:05 72 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-17 11:38:05 67 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-17 11:38:05 71 阅读
NoSQL之Redis非关系型数据库

2024-07-17 11:38:05 74 阅读
2024.7.22 作业

2024-07-17 11:38:05 74 阅读
GDB调试正在运行的程序

2024-07-17 11:38:05 59 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-17 11:38:05 60 阅读
在Django里面运行非项目文件

2024-07-17 11:38:05 58 阅读
SSD基本架构与工作原理

2024-07-17 11:38:05 64 阅读
在誉天学习完HCIE就业吗？

2024-07-17 11:38:05 71 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-17 11:38:05 61 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-17 11:38:05 65 阅读
go 协程池的实现

2024-07-17 11:38:05 64 阅读
Shell脚本循环语句与函数

2024-07-17 11:38:05 66 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-17 11:38:05 70 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-17 11:38:05 62 阅读
四大引用——强软弱虚

2024-07-17 11:38:05 67 阅读
Python语言-面向对象

2024-07-17 11:38:05 69 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-17 11:38:05 64 阅读
网站安全-CDN篇

2024-07-17 11:38:05 64 阅读

热门阅读

机器学习概述

2024-07-17 11:38:05 25 阅读
Missing script:‘dev‘

2024-07-17 11:38:05 23 阅读
SVN常用命令

2024-07-17 11:38:05 23 阅读
《只狼》dll文件缺失怎么修复，只狼缺少d3dcompiler_43.dll解决方案

2024-07-17 11:38:05 27 阅读
RedisAtomicLong

2024-07-17 11:38:05 22 阅读
内衣裤洗衣机有必要买吗？五样超卓臻品专业推荐！

2024-07-17 11:38:05 21 阅读
在设计电气系统时，电气工程师需要考虑哪些关键因素？

2024-07-17 11:38:05 28 阅读
HTC 10 刷系统 LineageOS 19.1 Android 12

2024-07-17 11:38:05 25 阅读
NV080H自动洗车机语音方案：“请将车窗关好，防止车进水！”

2024-07-17 11:38:05 25 阅读
php相关

2024-07-17 11:38:05 116 阅读
手机数据恢复技巧：适用于 Android 的恢复应用程序

2024-07-17 11:38:05 28 阅读
为什么微服务需要配置中心？Eureka原理？

2024-07-17 11:38:05 22 阅读
vue 实现下拉框的数据是树状结构

2024-07-17 11:38:05 19 阅读
【Elasticsearch】Elasticsearch的分片和副本机制

2024-07-17 11:38:05 26 阅读
Linux编程（通信协议---udp）

2024-07-17 11:38:05 16 阅读
sql server 练习题5

2024-07-17 11:38:05 20 阅读
【python】PyQt5的窗口界面的各种交互逻辑实现，轻松掌控图形化界面程序

2024-07-17 11:38:05 19 阅读
（计算机三级网络）中小型网络系统总体规划与设计＜51~113＞

2024-07-17 11:38:05 22 阅读
Vivado 2020.1 HLS IP在BD模式无法生成问题

2024-07-17 11:38:05 21 阅读
C++ 入门15：STL 容器之列表（list）

2024-07-17 11:38:05 23 阅读
Go语言---并发版爬虫

2024-07-17 11:38:05 22 阅读
Ubuntu的磁盘扩容&遇到的问题

2024-07-17 11:38:05 22 阅读
Eureka——Spring Cloud中的服务注册与发现组件

2024-07-17 11:38:05 17 阅读
iterator(迭代器模式)

2024-07-17 11:38:05 18 阅读
Docker Desktop Windows 目录介绍

2024-07-17 11:38:05 18 阅读
Rust编程-crates.io

2024-07-17 11:38:05 21 阅读
ArkTS学习笔记_UI界面的状态管理简述

2024-07-17 11:38:05 23 阅读
XXL-JOB：定时任务框架的实战应用与调度方式详解

2024-07-17 11:38:05 20 阅读
python怎么输出中文

2024-07-17 11:38:05 20 阅读
洛阳建筑设计资质市场未来趋势

2024-07-17 11:38:05 21 阅读