从零开始实现大语言模型（八）：Layer Normalization

2024-07-22 05:32:03
开发
14

1. 前言

Layer Normalization是深度学习实践中已经被证明非常有效的一种解决梯度消失或梯度爆炸问题，以提升神经网络训练效率及稳定性的方法。OpenAI的GPT系列大语言模型使用Layer Normalization对多头注意力模块，前馈神经网络模块以及最后的输出层的输入张量做变换，使shape为[batch_size, num_tokens, embedding_dim]的输入张量的embedding_dim维度数据的均值为0，方差为1。

本文介绍Layer Normalization的基本原理及其对输入张量的embedding_dim维度数据均值及方差做变换的方法，并实现继承自torch.nn.Module的神经网络模块LayerNorm。后续三篇文章将分别介绍前馈神经网络(feed forward network)与GELU激活函数，残差连接(shortcut connection)，Transformer Block，并最终构建出OpenAI的GPT系列大语言模型GPTModel。

2. Layer Normalization

如下图所示，对神经网络模块输出的均值为0.13，方差为0.39的6维向量做Layer Normalizaition，可以使输出向量的均值变为0，方差变为1。

可以使用torch.nn.Sequential(torch.nn.Linear(5, 6), torch.nn.Re

原文地址:https://blog.csdn.net/qq_24178985/article/details/140595744 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1815137685967343616.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

从零开始实现大语言模型（八）：Layer Normalization

1. 前言

2. Layer Normalization

相关推荐

最近更新

热门阅读