(深度学习记录)第TR3周:Transformer 算法详解

·文本的输入处理中,transformer会将输入文本序列的每个词转化为一个词向量,我们通常会选择一个合适的长度作为输入文本序列的最大长度如果一个句子达不到这个长度就用0填充,超出就做截断。

·self- attention机制可以让模型不仅仅关注当前位置的词,还关注句子中其他位置相关的词。

·transformer解码器预测了组概率,就可以将这组概率与正确的概率做对比,然后用反向传播来调整模型的权重,使得输出的概率分布更加接近整数输出。

目标的概率分布:

经过长期的训练后,希望输出的概率分布如下图所示:

​​​​​​​ 

相关推荐

  1. 算法学习记录3

    2024-06-08 00:24:03       24 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-06-08 00:24:03       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-06-08 00:24:03       100 阅读
  3. 在Django里面运行非项目文件

    2024-06-08 00:24:03       82 阅读
  4. Python语言-面向对象

    2024-06-08 00:24:03       91 阅读

热门阅读

  1. 数据结构:哈夫曼树及其哈夫曼编码

    2024-06-08 00:24:03       27 阅读
  2. 区块链技术的应用场景和优势

    2024-06-08 00:24:03       34 阅读
  3. 九天毕昇深度学习平台 | TensorBoard使用

    2024-06-08 00:24:03       31 阅读
  4. Python 树状数组

    2024-06-08 00:24:03       28 阅读
  5. Mybatis配置

    2024-06-08 00:24:03       30 阅读
  6. Python怎么循环计数:深入解析与实践

    2024-06-08 00:24:03       26 阅读