2025秋招NLP算法面试真题(十六)-UniLM：给Bert插上文本生成的翅膀

2024-07-11 20:40:02
开发
17

今天分享一个论文UniLM，核心点是掌握三种LM任务形式：单向LM，双向LM，序列到序列LM；

1. 生成任务

NLP任务大致可以分为NLU和NLG两种；Bert在NLU任务上效果很好，但是天生不适合处理生成任务。

原因在于Bert的预训练过程是使用的MLM，和生成任务的目标并不一致。

生成任务目标是每次蹦出来一个词，只能看到当前位置之前的词汇。

而Bert采用的是双向的语言模型，除了mask的单词，两个方向的词汇都可以被看到。

所以对Bert的一个改进思路就是让它在具有NLU能力的时候，同时兼备NLG能力。

2. 三种LM任务

UniLM做的就是这样一个事情。

具体的实现方式是设计了一系列的完形填空任务，这些完形填空任务的不同之处在于对上下文的定义。

从左到右的LM：使用mask单词的左侧单词来预测被遮掩的单词
从右到左的LM：和上面第一个相比就是方向的变化，使用mask单词的右侧单词来预测遮掩的单词
双向LM：就是当前mask的左右词汇都可以看到
sequence-to-sequence LM：这个就是UniLM能够具有生成能力的关键。我们的输入是source句子和target句子，mask单词在target上，那么当前mask的上下文就是source句子的所有单词和ta

原文地址:https://blog.csdn.net/weixin_41496173/article/details/140265449 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1811379921222766592.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-07-11 20:40:02 86 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-11 20:40:02 72 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-11 20:40:02 67 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-11 20:40:02 72 阅读
NoSQL之Redis非关系型数据库

2024-07-11 20:40:02 74 阅读
2024.7.22 作业

2024-07-11 20:40:02 74 阅读
GDB调试正在运行的程序

2024-07-11 20:40:02 59 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-11 20:40:02 60 阅读
在Django里面运行非项目文件

2024-07-11 20:40:02 58 阅读
SSD基本架构与工作原理

2024-07-11 20:40:02 64 阅读
在誉天学习完HCIE就业吗？

2024-07-11 20:40:02 71 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-11 20:40:02 61 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-11 20:40:02 65 阅读
go 协程池的实现

2024-07-11 20:40:02 64 阅读
Shell脚本循环语句与函数

2024-07-11 20:40:02 66 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-11 20:40:02 70 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-11 20:40:02 62 阅读
四大引用——强软弱虚

2024-07-11 20:40:02 67 阅读
Python语言-面向对象

2024-07-11 20:40:02 69 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-11 20:40:02 64 阅读
网站安全-CDN篇

2024-07-11 20:40:02 64 阅读

热门阅读

thinkphp8框架源码精讲

2024-07-11 20:40:02 19 阅读
力扣爆刷第161天之TOP100五连刷71-75（搜索二叉树、二维矩阵、路径总和）

2024-07-11 20:40:02 20 阅读
小红书矩阵系统源码：赋能内容创作与电商营销的创新工具

2024-07-11 20:40:02 19 阅读
超声波清洗机哪家清洁力最强？家用超声波眼镜清洗机推荐

2024-07-11 20:40:02 17 阅读
Flink，spark对比

2024-07-11 20:40:02 17 阅读
vue2 使用 Socket.io 实现 WebSocket

2024-07-11 20:40:02 24 阅读
【嵌入式单片机】之RS-232、RS-485、RS-422比较

2024-07-11 20:40:02 20 阅读
知识分享 | 车载SoC芯片应用产业分析

2024-07-11 20:40:02 21 阅读
flink 大数据处理资源分配

2024-07-11 20:40:02 19 阅读
LiteOS GPIO中断处理

2024-07-11 20:40:02 20 阅读
52.通过劫持主线程获取目标断点寄存器（调试寄存器）

2024-07-11 20:40:02 20 阅读
3-5 提高模型效果：归一化

2024-07-11 20:40:02 17 阅读
【实战】mysql加密函数AES_ENCRYPT无缝迁移到磐维2.0的加密函数MY_ENCRYPT_AES128

2024-07-11 20:40:02 15 阅读
11数据库的存储引擎

2024-07-11 20:40:02 18 阅读
python如何与前端交互

2024-07-11 20:40:02 16 阅读
《WebGIS快速开发教程》第7版发布

2024-07-11 20:40:02 24 阅读
Web知识库应用程序LibreKB

2024-07-11 20:40:02 22 阅读
AIGC时代创意设计师从“创作”向“智作”升级

2024-07-11 20:40:02 18 阅读
模型需要从txt中长文本中精准提炼出来文字

2024-07-11 20:40:02 22 阅读
Python 神器：wxauto 库——解锁微信自动化的无限可能

2024-07-11 20:40:02 25 阅读
无流量不商业

2024-07-11 20:40:02 19 阅读
vue3 学习笔记04 -- axios的使用及封装

2024-07-11 20:40:02 24 阅读
PCA-主成分分析法

2024-07-11 20:40:02 26 阅读
大模型融入云平台，信息化走向数智化

2024-07-11 20:40:02 20 阅读
LVS+keepalived群集

2024-07-11 20:40:02 23 阅读
开源项目有哪些机遇与挑战？

2024-07-11 20:40:02 22 阅读
精通 mysqldumpslow：深度分析 MySQL 慢查询日志

2024-07-11 20:40:02 22 阅读
定个小目标之刷LeetCode热题（41）

2024-07-11 20:40:02 19 阅读
详细介绍一下TypeScript

2024-07-11 20:40:02 23 阅读
简化嵌入式Linux开发：在Ubuntu上安装和配置交叉编译环境的高效方法

2024-07-11 20:40:02 24 阅读