【动手学深度学习-pytorch】 9.4 双向循环神经网络

在序列学习中,我们以往假设的目标是: 在给定观测的情况下 (例如,在时间序列的上下文中或在语言模型的上下文中), 对下一个输出进行建模。 虽然这是一个典型情景,但不是唯一的。 还可能发生什么其它的情况呢? 我们考虑以下三个在文本序列中填空的任务。

我___。

我___饿了。

我___饿了,我可以吃半头猪。

根据可获得的信息量,我们可以用不同的词填空, 如“很高兴”(“happy”)、“不”(“not”)和“非常”(“very”)。 很明显,每个短语的“下文”传达了重要信息(如果有的话), 而这些信息关乎到选择哪个词来填空, 所以无法利用这一点的序列模型将在相关任务上表现不佳。 例如,如果要做好命名实体识别 (例如,识别“Green”指的是“格林先生”还是绿色), 不同长度的上下文范围重要性是相同的。 为了获得一些解决问题的灵感,让我们先迂回到概率图模型。

双向模型

如果我们希望在循环神经网络中拥有一种机制, 使之能够提供与隐马尔可夫模型类似的前瞻能力, 我们就需要修改循环神经网络的设计。 幸运的是,这在概念上很容易, 只需要增加一个“从最后一个词元开始从后向前运行”的循环神经网络, 而不是只有一个在前向模式下“从第一个词元开始运行”的循环神经网络。 双向循环神经网络(bidirectional RNNs) 添加了反向传递信息的隐藏层,以便更灵活地处理此类信息。 图9.4.2描述了具有单个隐藏层的双向循环神经网络的架构。
在这里插入图片描述

定义

在这里插入图片描述

将前向隐状态 和反向隐状态连接起来, 获得需要送入输出层的隐状态H

模型的计算代价及其应用

在这里插入图片描述

双向层的使用在实践中非常少,并且仅仅应用于部分场合。 例如,填充缺失的单词、词元注释(例如,用于命名实体识别) 以及作为序列处理流水线中的一个步骤对序列进行编码(例如,用于机器翻译)

总结

  • 在双向循环神经网络中,每个时间步的隐状态由当前时间步的前后数据同时决定。

  • 双向循环神经网络与概率图模型中的“前向-后向”算法具有相似性。

  • 双向循环神经网络主要用于序列编码和给定双向上下文的观测估计。

  • 由于梯度链更长,因此双向循环神经网络的训练代价非常高。

  • 双向层的使用在实践中非常少,并且仅仅应用于部分场合。 例如,填充缺失的单词、词元注释(例如,用于命名实体识别) 以及作为序列处理流水线中的一个步骤对序列进行编码(例如,用于机器翻译)

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-30 07:00:02       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-30 07:00:02       106 阅读
  3. 在Django里面运行非项目文件

    2024-03-30 07:00:02       87 阅读
  4. Python语言-面向对象

    2024-03-30 07:00:02       96 阅读

热门阅读

  1. 【threejs】计算矩阵、网格等总面积

    2024-03-30 07:00:02       46 阅读
  2. spark DataFrame通过JDBC读写数据库(MySQL示例)

    2024-03-30 07:00:02       36 阅读
  3. npm包发布

    2024-03-30 07:00:02       40 阅读
  4. Node.js常用命令详解

    2024-03-30 07:00:02       40 阅读
  5. 在axios中设置方法防止http重复请求

    2024-03-30 07:00:02       37 阅读
  6. SqlSugar快速入门

    2024-03-30 07:00:02       42 阅读
  7. qt之windows库编译

    2024-03-30 07:00:02       47 阅读
  8. MYSQL分区

    2024-03-30 07:00:02       38 阅读
  9. 关于debian如何使用lb-build构建iso

    2024-03-30 07:00:02       48 阅读