国科大-自然语言处理复习

谨以此博客作为复习期间的记录

实体关系联合抽取

流水线式

  • 流水线式抽取(Pipline): 把关系抽取的任务分为两个步骤,首先进行实体识别,再抽取出两个实体的关系。
    在这里插入图片描述

  • 联合抽取(Joint Extraction): 端到端,同时进行实体和关系的抽取。流水线式抽取会导致误差在各流程中传递和累加,而联合抽取的方式则实现难度更大

端到端方法

在这里插入图片描述
流水线式抽取和新标注策略的实体关系联合抽取都可以和序列标注结合起来,
在这里插入图片描述

在这里插入图片描述

检索式问答系统

流水线方式

Document Retriever 和 Document Reader 分两步

  • Document Retriever:通过TF-IDF检索维基百科中与问题相关的Top K个文档
  • Document Reader:将答案抽取转化为抽取式阅读理解问题
  • • 输入:一个文档段落,一个自然语言描述的问题
  • • 输出:段落中抽取的答案片段
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

论文中提出的模型结构主要包括两个阶段:信息检索(IR)和阅读理解(RC),以及两种答案重排方法:基于证据强度的重排和基于证据覆盖的重排。以下是这些模型组件的详细介绍:

信息检索(IR)阶段

  • 目标:检索与给定问题最相关的网页段落。
  • 方法:使用搜索引擎(例如谷歌或必应)来找到与问题最相关的顶级网页段落。
  • 特点:与标准阅读理解任务不同,在开放领域设置中,RC模型通常在远程监督下进行训练。这意味着在训练阶段,RC模型会将包含正确答案的所有段落与问题进行匹配

阅读理解(RC)阶段

  • 目标:从检索到的段落中提取答案。
  • 方法:使用阅读理解模型(例如R3模型)来从这些段落中提取候选答案。
  • 特点:与单个固定段落的标准阅读理解任务不同,开放领域问答需要处理多个段落,并从中提取候选答案

基于证据强度的重排

  • 目的:利用段落中出现答案的频率或概率来评估答案的强度。
  • 实现:计算每个答案在顶级答案候选中出现的次数,或者将RC模型为每个答案跨度分配的概率相加,以确定最终预测

基于证据覆盖的重排

  • 目的:根据不同段落的证据如何覆盖问题来排列答案候选。
  • 实现:首先将包含答案的段落连接成一个“伪段落”,然后使用匹配LSTM模型来衡量这个伪段落如何涵盖问题的各个方面

结合不同类型的聚合

  • 方法:将两种重排方法的输出进行加权组合,无需额外训练。
  • 特点:首先使用softmax重新归一化两种基于强度的重排器和一个基于覆盖的重排器提供的前5个答案得分,然后对相同答案的得分进行加权求和,选择得分最高的答案作为最终预测

这种结合信息检索、阅读理解和多种重排策略的方法充分利用了多个段落的证据,有效地提高了开放领域问答系统的性能。

端到端方式

Retriever-Reader的联合学习

Lee et al., Latent Retrieval for Weakly Supervised Open Domain Question Answering, ACL,2019
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基于预训练的Retriever-Free方法

Petroni et al. Language Models as Knowledge Bases? ACL, 2019

情感分析

联合三元组抽取

将问题转为一个序列生成问题
统一输入输出的标准
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

A Unified Generative Framework for Aspect-Based Sentiment Analysis

相关推荐

  1. 【AI】人工智能复兴的推进器之自然语言处理

    2024-01-17 00:32:02       43 阅读
  2. 自然语言处理

    2024-01-17 00:32:02       32 阅读
  3. 自然语言处理笔记

    2024-01-17 00:32:02       32 阅读
  4. 自然语言处理(NLP)

    2024-01-17 00:32:02       38 阅读
  5. NLP自然语言处理

    2024-01-17 00:32:02       29 阅读
  6. 自然语言处理

    2024-01-17 00:32:02       15 阅读
  7. 自然语言处理

    2024-01-17 00:32:02       14 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-17 00:32:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-17 00:32:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-17 00:32:02       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-17 00:32:02       20 阅读

热门阅读

  1. CSS Day6-Day8 浮动和定位

    2024-01-17 00:32:02       34 阅读
  2. .NET学习教程二——.net基础定义+VS常用设置

    2024-01-17 00:32:02       31 阅读
  3. leetcode 1两数之和

    2024-01-17 00:32:02       33 阅读
  4. 记录一下常用的工具类

    2024-01-17 00:32:02       28 阅读
  5. 时间复杂度和空间复杂度

    2024-01-17 00:32:02       35 阅读
  6. 寒假刷题第五天

    2024-01-17 00:32:02       35 阅读
  7. Spring MVC中@Controller和@RestController的区别

    2024-01-17 00:32:02       29 阅读
  8. flutter-基本功能总结

    2024-01-17 00:32:02       30 阅读
  9. c 小熊猫 c++ IDE编译ffmpeg 设置

    2024-01-17 00:32:02       37 阅读