BERT与GPT

1.BERT模型介绍

BERT模型结构

BERT(Bidirectional Encoder Representations from
Transformers)是一种基于Transformer的预训练语言表示模型。从架构上讲,BERT是一个基于Transformer编码器的架构。以下是其主要组成部分的简要概述:

架构
  • Encoder-Only:BERT使用了Transformer中的编码器部分。与标准Transformer相比,它不包括解码器部分,因为BERT的设计旨在生成固定大小的向量表示,用于下游NLP任务,而不是生成序列输出。

  • 多层Transformer编码器:BERT模型具体由多层(例如BERT-Base为12层,BERT-Large为24层)Transformer编码器堆叠而成。每一层都包括多头自注意力机制和前馈神经网络。

输入表示
  • 词嵌入(Token Embeddings):将输入的单词转换为向量形式。
  • 位置编码(Positional Encodings):由于Transformer架构不自然地处理序列的顺序,位置编码被添加到词嵌入中,以提供位置信息。
  • 片段嵌入(Segment Embeddings):用于区分两个不同的句子,主要用于下游任务中的句子对分类任务,如问答和自然语言推理。

所有这些嵌入向量被逐元素相加,形成了模型的最终输入表示。

输出
  • BERT的输出是输入序列的每个元素的高维表示。这些表示捕获了输入文本的丰富上下文信息,可以被用于各种下游任务。

预训练任务

BERT在预训练阶段通过两种任务学习语言表示:

  1. 遮蔽语言模型(Masked Language Model, MLM):随机遮蔽输入序列中的单词(如用"[MASK]"代替),然后模型尝试预测这些遮蔽单词。
  2. 下一句预测(Next Sentence Prediction, NSP):给定两个句子A和B,模型预测B是否是A的下一句。

微调

在预训练完成后,BERT可以通过在特定的下游任务上进行微调来适应特定的应用。微调阶段通常涉及添加一个或多个特定于任务的层到预训练的BERT模型上,然后在下游任务的数据集上进行训练。

相关推荐

  1. BERTGPT

    2024-03-24 14:18:06       43 阅读
  2. BertChatGPT

    2024-03-24 14:18:06       47 阅读
  3. BERTGPT学习问题个人记录

    2024-03-24 14:18:06       58 阅读
  4. NLP:bert下载使用

    2024-03-24 14:18:06       44 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-24 14:18:06       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-24 14:18:06       100 阅读
  3. 在Django里面运行非项目文件

    2024-03-24 14:18:06       82 阅读
  4. Python语言-面向对象

    2024-03-24 14:18:06       91 阅读

热门阅读

  1. 浏览器强缓存和弱缓存的主要区别

    2024-03-24 14:18:06       46 阅读
  2. 如何结合NLP和图像描述技术

    2024-03-24 14:18:06       40 阅读
  3. Python实战:枚举类型enum及应用

    2024-03-24 14:18:06       43 阅读
  4. make | ubuntu源码编译指定版本make

    2024-03-24 14:18:06       40 阅读
  5. 通用型服务器和专用型服务器的区别

    2024-03-24 14:18:06       40 阅读
  6. 【React】React中将 Props 传递给组件

    2024-03-24 14:18:06       41 阅读
  7. 自定义Redis工具类(解决缓存穿透和击穿)

    2024-03-24 14:18:06       47 阅读
  8. qiankun实现基座、子应用样式隔离

    2024-03-24 14:18:06       43 阅读
  9. npm 常用命令详解

    2024-03-24 14:18:06       34 阅读
  10. 好玩的AI生产PPT工具分享

    2024-03-24 14:18:06       41 阅读
  11. Spark面试整理-Spark是什么?

    2024-03-24 14:18:06       36 阅读
  12. lin_20240321_calculating_rG4score.R

    2024-03-24 14:18:06       36 阅读
  13. 0324Caliper测试fabric1.4的TPS与Delay

    2024-03-24 14:18:06       47 阅读
  14. SCI论文发表很容易【8】:参考文献的格式

    2024-03-24 14:18:06       40 阅读
  15. 编译和安装Linux版7zip并替代p7zip

    2024-03-24 14:18:06       46 阅读
  16. C语言:二叉树基础

    2024-03-24 14:18:06       36 阅读