自然语言处理-文本标注

文本标注

现在让我们考虑词元级任务,比如文本标注(text tagging),其中每个词元都被分配了一个标签。在文本标注任务中,词性标注为每个单词分配词性标记(例如,形容词和限定词)。 根据单词在句子中的作用。如,在Penn树库II标注集中,句子“John Smith‘s car is new”应该被标记为“NNP(名词,专有单数)NNP POS(所有格结尾)NN(名词,单数或质量)VB(动词,基本形式)JJ(形容词)”。

上图中说明了文本标记应用的BERT微调。与 文本对分类或回归相比,唯一的区别在于,在文本标注中,输入文本的每个词元的BERT表示被送到相同的额外全连接层中,以输出词元的标签,例如词性标签。

问答

作为另一个词元级应用,问答反映阅读理解能力。 例如,斯坦福问答数据集(Stanford Question Answering Dataset,SQuAD v1.1)由阅读段落和问题组成,其中每个问题的答案只是段落中的一段文本(文本片段)。举个例子,考虑一段话:“Some experts report that a mask’s efficacy is inconclusive.However,mask makers insist that their products,such as N95 respirator masks,can guard against the virus.”(“一些专家报告说面罩的功效是不确定的。然而,口罩制造商坚持他们的产品,如N95口罩,可以预防病毒。”)还有一个问题“Who say that N95 respirator masks can guard against the virus?”(“谁说N95口罩可以预防病毒?”)。答案应该是文章中的文本片段“mask makers”(“口罩制造商”)。因此,SQuAD v1.1的目标是在给定问题和段落的情况下预测段落中文本片段的开始和结束。

为了微调BERT进行问答,在BERT的输入中,将问题和段落分别作为第一个和第二个文本序列。为了预测文本片段开始的位置,相同的额外的全连接层将把来自位置i的任何词元的BERT表示转换成标量分数s_{i}。文章中所有词元的分数还通过softmax转换成概率分布,从而为文章中的每个词元位置i分配作为文本片段开始的概率p_{i}。预测文本片段的结束与上面相同,只是其额外的全连接层中的参数与用于预测开始位置的参数无关。当预测结束时,位置i的词元由相同的全连接层变换成标量分数e_{i}。上图描述了用于问答的微调BERT。

对于问答,监督学习的训练目标就像最大化真实值的开始和结束位置的对数似然一样简单。当预测片段时,我们可以计算从位置i到位置j的有效片段的分数s_{i} + e_{j} (i\leqslant j),并输出分数最高的跨度。

相关推荐

  1. 自然语言处理-文本清理技术

    2024-01-27 06:04:04       10 阅读
  2. 自然语言处理(NLP)基础:文本预处理与词嵌入

    2024-01-27 06:04:04       25 阅读
  3. 自然语言处理

    2024-01-27 06:04:04       32 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-27 06:04:04       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-27 06:04:04       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-27 06:04:04       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-27 06:04:04       20 阅读

热门阅读

  1. 前端框架 - htmx

    2024-01-27 06:04:04       27 阅读
  2. SpringBoot获取用户的ip地址信息

    2024-01-27 06:04:04       41 阅读
  3. SQL - 数据定义语句

    2024-01-27 06:04:04       28 阅读
  4. Git初识

    Git初识

    2024-01-27 06:04:04      30 阅读
  5. 2024年1月29日 晨会汇报

    2024-01-27 06:04:04       28 阅读
  6. 达梦表空间不足解决办法

    2024-01-27 06:04:04       35 阅读
  7. 代码随想录day24

    2024-01-27 06:04:04       25 阅读
  8. 前端学习-0125

    2024-01-27 06:04:04       19 阅读
  9. 前端小白入门试题——附答案

    2024-01-27 06:04:04       30 阅读
  10. 初识子域名

    2024-01-27 06:04:04       47 阅读
  11. 前端各种优化

    2024-01-27 06:04:04       32 阅读