论文阅读 BERT GPT - transformer在NLP领域的延伸

2024-01-10 22:10:03
开发
30

文章目录

不会写的很详细，只是为了帮助我理解在CV领域transformer的拓展
1 摘要
- 1.1 BERT - 核心
- 1.2 GPT - 核心
2 模型架构
- 2.1 概览
3 区别
- 3.1 finetune和prompt
3.2 transformer及训练
总结

不会写的很详细，只是为了帮助我理解在CV领域transformer的拓展

1 摘要

1.1 BERT - 核心

双向编码器 加上mask做完形填空超大模型无监督预训练需要整个模型作为pretrain weight到下游任务做fintune

1.2 GPT - 核心

自回归解码器 无需训练只需Prompt

2 模型架构

2.1 概览

在这里插入图片描述

3 区别

3.1 finetune和prompt

BERT需要全部参数进行训练
GPT不需要训练即可完成下游任务
在这里插入图片描述

3.2 transformer及训练

BERT使用双向的编码器
在这里插入图片描述

GPT使用自回归的解码器
在这里插入图片描述

总结

总结个毛

原文地址:https://blog.csdn.net/highoooo/article/details/135487425 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1745085598504456192.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

论文阅读 BERT GPT - transformer在NLP领域的延伸

2024-01-10 22:10:03 31 阅读
Transformer 论文阅读笔记

2024-01-10 22:10:03 27 阅读
swin transformer 论文阅读

2024-01-10 22:10:03 12 阅读
[nlp入门论文精读] | Transformer

2024-01-10 22:10:03 19 阅读
论文阅读 Vision Transformer - VIT

2024-01-10 22:10:03 40 阅读
mask transformer相关论文阅读

2024-01-10 22:10:03 25 阅读
探索GPT-4V在学术领域的应用——无需编程即可阅读和理解科学论文

2024-01-10 22:10:03 9 阅读
【论文阅读】ChipNeMo中的领域适配检索模型

2024-01-10 22:10:03 10 阅读
【论文阅读】Transformer 论文逐段精读

2024-01-10 22:10:03 15 阅读
[论文阅读]VoxSet——Voxel Set Transformer

2024-01-10 22:10:03 31 阅读

热门阅读

mysql常见问题

2024-01-10 22:10:03 34 阅读
智能网联汽车电子电气架构（上）

2024-01-10 22:10:03 25 阅读
MapReduce 初级编程实践

2024-01-10 22:10:03 30 阅读
向爬虫而生---Redis 拓宽篇3 ＜GEO模块＞

2024-01-10 22:10:03 32 阅读
视频监控系统EasyCVR如何通过调用API接口查询和下载设备录像？

2024-01-10 22:10:03 33 阅读
AcWing 92.递归实现指数型枚举（详解）

2024-01-10 22:10:03 33 阅读
Qt基础-QtGlobal常用的全局函数及随机数产生实例

2024-01-10 22:10:03 35 阅读
数据结构第九弹---循环队列

2024-01-10 22:10:03 38 阅读
R语言【sp】——spsample()：在一个空间对象随机取样坐标点

2024-01-10 22:10:03 33 阅读
学习记录685@获取第三方文件后转存入自己服务器

2024-01-10 22:10:03 36 阅读
C++——简介、Hello World、变量常量、数据类型

2024-01-10 22:10:03 34 阅读
对root用户的理解

2024-01-10 22:10:03 34 阅读
Keil编译生成的bin文件自动以版本号命名

2024-01-10 22:10:03 47 阅读
【算法分析与设计】三数之和

2024-01-10 22:10:03 34 阅读
小H靶场笔记：DC-8

2024-01-10 22:10:03 30 阅读
vue3利用自定义事件和v-model实现父子传参

2024-01-10 22:10:03 37 阅读
mysql基础-常用函数汇总

2024-01-10 22:10:03 33 阅读
PAT (Basic Level)|1004成绩排名 c++满分题解

2024-01-10 22:10:03 32 阅读
六种成功修复方案:解决电脑concrt140.dll文件丢失问题

2024-01-10 22:10:03 39 阅读
flask flask-sqlalchemy sqlit3

2024-01-10 22:10:03 32 阅读
Linux kernel 学习笔记

2024-01-10 22:10:03 46 阅读
LeetCode 36 有效的数独

2024-01-10 22:10:03 35 阅读
2024.1.3力扣每日一题——从链表中移除节点

2024-01-10 22:10:03 36 阅读
MySql -数据库基本概念

2024-01-10 22:10:03 31 阅读
Appium + ios环境搭建过程Mac

2024-01-10 22:10:03 35 阅读
Linux学习之网络编程（纯理论）

2024-01-10 22:10:03 35 阅读
大创项目推荐深度学习手势识别 - yolo python opencv cnn 机器视觉

2024-01-10 22:10:03 31 阅读
《PySpark大数据分析实战》-27.数据可视化图表Pyecharts介绍

2024-01-10 22:10:03 32 阅读
接口功能测试策略

2024-01-10 22:10:03 31 阅读
VMware vSphere运维管理手册

2024-01-10 22:10:03 26 阅读