03.用于LLMs不同的任务-transformer 架构

大多数现代LLMs都依赖于 transformer 架构,这是 2017 年论文 Attention Is All You Need 中介绍的深度神经网络架构。要理解LLMs,我们必须简要回顾一下最初的转换器,它最初是为机器翻译而开发的,将英语文本翻译成德语和法语。变压器架构的简化版本如图 1.4 所示。

图 1.4 原始 Transformer 架构的简化描述,该架构是用于语言翻译的深度学习模型。转换器由两部分组成,一个编码器,用于处理输入文本并生成文本的嵌入表示(一种在不同维度捕获许多不同因素的数字表示),解码器可以使用该表示一次生成一个单词的翻译文本。请注意,此图显示了翻译过程的最后阶段,解码器只需生成最后一个单词(“Beispiel”),给定原始输入文本(“This is an example”)和部分翻译的句子(“Das ist ein”),即可完成翻译。图编号表示处理数据的顺序,并提供有关读取图的最佳顺序的指导。

图 1.4 中描述的 transformer 架构由两个子模块组成,一个编码器和一个解码器。编码器模块处理输入文本并将其编码为一系列数字表示或向量,以捕获输入的上下文信息。然后,解码器模块获取这些编码的向量并从中生成输出文本

相关推荐

  1. 最简单GPTTransformer架构

    2024-01-11 07:00:03       30 阅读
  2. Transformer架构自注意力机制

    2024-01-11 07:00:03       15 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-11 07:00:03       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-11 07:00:03       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-11 07:00:03       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-11 07:00:03       20 阅读

热门阅读

  1. 【c++笔记】总结!c++与c语言的不同之处

    2024-01-11 07:00:03       32 阅读
  2. 前端要了解的k8s、CI/CD、Devops概念

    2024-01-11 07:00:03       35 阅读
  3. mysql中使用IN的注意事项

    2024-01-11 07:00:03       38 阅读
  4. bat脚本sqlserver 不同数据库同步

    2024-01-11 07:00:03       37 阅读
  5. 存储服务器有什么功能?

    2024-01-11 07:00:03       34 阅读
  6. 记录 | ubuntu给ssh远程的服务器起别名

    2024-01-11 07:00:03       42 阅读
  7. Mac中如何卸载干净 IDEA

    2024-01-11 07:00:03       36 阅读
  8. android系列-init SetupSelinux

    2024-01-11 07:00:03       39 阅读
  9. MongoDB——去重函数Distinct

    2024-01-11 07:00:03       38 阅读
  10. MongoDB相关问题及答案(2024)

    2024-01-11 07:00:03       33 阅读