BERT的模型架构

Bert Base:12层编码器,768维词嵌入,12个注意力头(对标GPT)

这张图讲的非常简单,对比了BERT、OpenAI和ELMo,其中ELMo是相对比较落后的,因为它没有用Transformer,而是只是用了双向的LSTM模型,把一个从左到右的RNN和一个从右到左的RNN拼接起来。GPT和BERT都是用了Transformer,但GPT用的是解码器,所以在当前时间步,“注意”不到后面时间步的信息。参考第二张图·,它是没有向左的箭头的。而BERT则是用了编码器,所以可以看到全部时间步的信息。这样一来,模型的训练会变得容易很多,让他去做判别式的任务(多分类),就容易以更小的数据集、更小的参数数量体现出更强的效果。

   AI科技智库👉️👉️👉️www.aigchouse.com,一站式AI工具、资料、课程资源学习平台,每日持续更新。通过分享最新AI工具、AI资源等,帮助更多人了解使用AI,提升工作和学习效率。这里有海量AI工具整合包、AI学习资料、AI免费课程和AI咨询服务,AI之路不迷路,2024我们一起变强。

相关推荐

最近更新

  1. TCP协议是安全的吗?

    2024-06-16 18:10:01       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-16 18:10:01       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-16 18:10:01       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-16 18:10:01       20 阅读

热门阅读

  1. 2024年6月四六级考试复盘

    2024-06-16 18:10:01       10 阅读
  2. flink学习-容错机制

    2024-06-16 18:10:01       6 阅读
  3. netty-reacter写一个http服务器

    2024-06-16 18:10:01       8 阅读
  4. Spring多数据源管理方案

    2024-06-16 18:10:01       8 阅读
  5. Web前端行距代码:深入探索与实战应用

    2024-06-16 18:10:01       10 阅读
  6. 介绍一个 SpringBoot 集成各种场景的项目

    2024-06-16 18:10:01       9 阅读
  7. 外包公司泛滥,这些常识你应该提前知道?

    2024-06-16 18:10:01       6 阅读