BERT的模型架构

2024-06-16 18:10:01
开发
8

Bert Base：12层编码器，768维词嵌入，12个注意力头（对标GPT）

这张图讲的非常简单，对比了BERT、OpenAI和ELMo，其中ELMo是相对比较落后的，因为它没有用Transformer，而是只是用了双向的LSTM模型，把一个从左到右的RNN和一个从右到左的RNN拼接起来。GPT和BERT都是用了Transformer，但GPT用的是解码器，所以在当前时间步，“注意”不到后面时间步的信息。参考第二张图·，它是没有向左的箭头的。而BERT则是用了编码器，所以可以看到全部时间步的信息。这样一来，模型的训练会变得容易很多，让他去做判别式的任务（多分类），就容易以更小的数据集、更小的参数数量体现出更强的效果。

AI科技智库👉️👉️👉️www.aigchouse.com，一站式AI工具、资料、课程资源学习平台，每日持续更新。通过分享最新AI工具、AI资源等，帮助更多人了解使用AI，提升工作和学习效率。这里有海量AI工具整合包、AI学习资料、AI免费课程和AI咨询服务，AI之路不迷路，2024我们一起变强。

原文地址:https://blog.csdn.net/aigchouse/article/details/139690455 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1802282474970157056.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

BERT的模型架构

Bert Base：12层编码器，768维词嵌入，12个注意力头（对标GPT）

相关推荐

最近更新

热门阅读