NLP论文阅读记录 - 2023 | EXABSUM：一种新的文本摘要方法，用于生成提取和抽象摘要

文章目录

前言
0、论文摘要
一、Introduction
二.相关工作
三.本文方法
四实验效果
五总结
思考

前言

在这里插入图片描述

EXABSUM: a new text summarization approach for generating extractive and abstractive summaries（23）

0、论文摘要

由于在线信息呈指数级增长，无需大量阅读即可有效提取信息最丰富的内容并定位特定信息的能力对于读者来说变得越来越有价值。
在本文中，我们提出了“EXABSUM”，这是一种自动文本摘要（ATS）的新方法，能够生成两种主要类型的摘要：抽取式摘要和抽象摘要。
我们提出了两种不同的方法：
（1）提取技术（EXABSUMExtractive），它集成了统计和语义评分方法，从文本单元中选择和提取相关的、非重复的句子；
（2）抽象技术（EXABSUMAbstractive），它采用词图方法（包括压缩和融合阶段）和基于关键词的重新排名，以使用源文档作为输入生成抽象摘要。在对多领域基准进行的评估中，EXABSUM 优于提取摘要方法，并表现出与抽象基线的竞争力。

一、Introduction

1.1目标问题

如果没有摘要，人类对不断增长的在线信息的访问将会受到阻碍。鉴于文本内容的广泛性，相关信息可能会无意中逃避读者的注意力。因此，将关键信息浓缩成摘要具有重要价值。自 20 世纪 50 年代以来，研究人员一直致力于增强文本摘要算法，目标是达到与人类能力相当的摘要水平。文本摘要仍然是 NLP 领域中一个艰巨但充满希望的挑战。
在文本摘要中，出现了两个关键问题：（i）识别文档中相关内容的过程，以及（ii）简洁地传达所选材料同时最大限度地减少冗余的艺术[1-3]。 ATS 方法的前景可分为三个主要类别：抽取式、抽象式和目前，重点是混合摘要——提取和抽象技术的融合[4-6]。
尽管信息技术取得了显着的进步，但概括领域仍然需要取得重大进展。在文本摘要领域，仍然存在一些关键挑战，可概括如下：
• 最初，出现了文本相关性检测的挑战。传统方法假设文本中单词的重要性与其出现频率相关，每个单词代表一个不同的概念。然而，由于同义词和共指表达的存在有助于文本衔接，量化概念的出现会带来复杂性。文档中的信息流表现出波动，表明特定部分比其他部分更重要。因此，有效识别最相关的细节并在静态和语义上从源文档中区分相关术语的任务被证明是一个普遍的挑战（例如，根据相关关键字或关键短语进行选择）。
• 随后，缺乏连贯性和冗余的问题。提取式摘要在生成的摘要中面临着衔接和连贯性的障碍，这些障碍源于冗余（具有可比含义的短语）、脱节的句子连接和未解决的共指关系。
• 第三个挑战涉及抽象和混合摘要。对抽象或混合自动文本摘要 (ATS) 技术的需求变得显而易见。这种技术类型仍然是一个不断发展和复杂的领域。迄今为止，事实证明，制作有效的抽象摘要具有挑战性。必须制定总体指导方针和可行的策略，从提取摘要过渡到抽象摘要，从而利用这两种 ATS 方法所提供的优势。

1.2相关的尝试

1.3本文贡献

在本文中，我们介绍了 EXABSUM，这是一种 ATS 系统，可以生成两个不同的摘要类别。首先，摘录（EXABSUMExtractive）是通过严格的提取方法形成的，而摘要（EXABSUMAbstractive）是通过抽象方法制作的。所概述的方法有效地解决了提取和抽象摘要技术固有的局限性

总之，我们的贡献如下：
• 与某些仅依赖统计评分机制从源文档逐字提取短语的现有提取系统不同，我们的方法引入了一种独特的无监督提取策略，旨在应对文本相关性检测的挑战。这种创新方法结合了统计和语义评分技术的优势来识别关键信息，同时提出一种新颖的信息。
• 与某些现有的提取系统不同，我们的方法引入了语义冗余缓解的元素——ATS 中的一个关键问题。避免在最终结果中包含语义和上下文冗余信息摘要，我们主张采用文本蕴涵。这种方法用于减轻现有方法固有的可读性挑战，从而减轻通常与生成的文本相关的缺点。
• 我们通过提出基于图形的摘要模型来应对生成摘要摘要的挑战，该模型旨在生成有弹性的摘要摘要。该模型建立并扩展了开创性的多句子压缩和融合方法，并得到基于密钥提取的重新排序方法的支持。值得注意的是，这种方法的功能独立于训练数据或获取文档结构或领域知识的任何需要。

二.相关工作

自动摘要领域的最初工作集中在提取方法，其目的是直接从源文本中选择相关的现有单词、短语或句子以捕获其最关键的内容。提取式自动文本摘要（ATS）方法通常分三个步骤进行[5]：（1）构建原始文本的中间表示（通常涉及预处理并将文本分割为段落、短语和标记）； (2) 句子评分（分数应衡量句子对全面理解文本的重要性），将分数分配给最相关的单词，然后评估句子特征，例如在文档中的位置、句子长度、标题对齐和其他因素。先前的提取摘要研究主要集中在（1）基于句子聚类、（2）统计、（3）基于图和（4）基于优化的技术。在第一种方法的上下文中，文档包含 n 个句子，每个句子共享一组相同的术语。因此，文档中的术语集对应于每个短语中的术语集。对应句子之间的距离可以用来说明语言模式的相似性[7-10]。
句子聚类算法将相关的文本单元（段落、句子）组织成多个聚类，以发现信息的共同主题，随后从这些聚类中选择文本单元作为最终摘要。值得注意的提取摘要技术之一是基于质心的方法[11]。 MEAD 系统 [12] 是采用句子聚类算法的自动文本摘要 (ATS) 系统的一个实例，它是一个双语（英语和中文）摘要系统，
提供提取的单文档和多文档通用或以查询为中心的摘要。 MEAD 系统利用 tf-idf 类型数据计算单个文档或提供的集群的质心主题特征。它通过权衡句子得分与质心、文本位置值和 tf-idf 标题/导语重叠来评估候选摘要句子。摘要长度阈值控制句子选择，而针对先前短语的余弦相似性分析则抑制冗余的新短语。
QCS 系统 [13] 将摘要技术纳入综合检索和分组过程中，为每个集群生成单个提取摘要。这是通过结合句子“修剪”和隐马尔可夫模型，然后进行旋转 QR 分解的方法来实现的。该模型识别出最有可能包含在摘要中的句子。
统计方法 [14] 依赖于 TF-IDF 分数和单词共现等基本指标 [1,15,16]。 Ko 和 Seo [17] 引入了一种熟练的文本摘要方法，该方法利用上下文洞察和统计方法来提取相关句子。
基于图的方法 [7] 将文本描述为短语网络，并通过基于图的评分机制设计摘要。 Baralis 等人提出了一种创新且多功能的摘要器 GRAPHSUM，它植根于图模型。 [18]。它通过揭示关联规则来捕获各种元素之间的相互关系。 Parveen 和 Strube [19] 提出了一种基于提取图的无监督技术，用于总结单个文档，该技术考虑了三个关键的总结属性：重要性、非冗余性和局部一致性。基于优化的方法[20]采用整数线性规划[21]、约束优化[22]和稀疏优化[23]等优化技术。
其他 ATS 系统，如 SummGraph [24]，采用基于图形的算法和知识数据库来识别相关文本的实质内容。值得注意的是，这个特定系统已在新闻、生物医学研究和旅游等领域展现出有效性。摘要还融入了自然语言生成 (NLG)，以引入新的术语和语言结构。 Belz [25] 提出了一种基于“NLG”的文本摘要技术，可自动生成天气预报报告。穆罕默德等人。 [26]阐明了一种自动创建基于引文的技术调查的系统。最近，埃雷拉等人。 [27] 介绍了 IBM Science Summarizer，这是一种针对计算机科学论文的创新方法。这种方法根据用户提供的信息需求来制作摘要，无论是自然语言查询、科学任务（例如“机器翻译”）、数据集还是学术场所。
尽管提取方法可以熟练地识别重要信息，但它们可能缺乏人类生成的摘要所固有的流动性和精确性。因此，抽象 ATS 方法致力于通过减少冗余、阐明句子上下文以及可能在摘要中引入补充短语来增强句子连贯性。为了合成最终摘要，抽象技术通常利用句子压缩、融合或修改机制。 Barzilay 和 McKeown [28] 开创了一个系统，其中依赖树代表输入短语，并且选择的单词被对齐以将这些树集成到网格结构中。随后通过树遍历对格进行线性化以生成融合句子。
Filippova 和 Strube [29] 引入了一种创新的句子融合方法，将融合任务视为优化问题。这种无监督技术利用了依存结构对齐、语义和句法信息短语聚合以及修剪策略。后来，Filippova 深入研究了将相互关联的句子集合压缩为简洁的单个句子的挑战，称为多句子压缩，并提出了一种基于词图中最短路径的基础技术 [30]。她的方法产生了语法合理且信息丰富的摘要，随后在多种当代摘要系统中得到应用 [4, 31]。 Boudin [32] 通过将多句子压缩（MSC）作为从一组互连句子生成简洁的单句子摘要的任务来扩展 Filippova 的方法。他引入了一种基于文档中关键短语的频率和相关性的 N 最佳重新排名算法，从而产生信息更丰富的摘要。班纳吉等人。 [33]使用单词图和整数线性规划（ILP）设计了多文档抽象摘要。他们将关键文档中的相似句子聚集在一起，并使用词图来识别最短路径。 ILP模型有利于识别具有最大信息量和可读性的句子，有效减少冗余。纳伊姆等人。 [34]制定了一个无监督的抽象摘要系统。他们的创新是释义句子融合模型，通过skip-gram词嵌入模型将句子融合与句子级别的释义结合起来。该模型扩大了信息覆盖范围并增强了生成短语的抽象性质。尚等人。 [35]引入了一种完全无监督的基于图的架构，专为会议演讲的抽象总结而定制。他们的统一框架融合了三种不同任务（关键词提取、多句子压缩和摘要）中六种流行方法的优势，有效解决了各自的局限性。他们的抽象概括方法经历了四个关键过程：预处理、社区识别、多句子压缩和子模最大化。
最近，NLP 研究界越来越多地将注意力转向混合 ATS 技术。在混合方法中，利用提取方法来识别被认为对于包含在摘要中至关重要的内容术语和句子，同时指导摘要的开发[36]。此类方法融合了提取和抽象 ATS 技术的优势。迪法布里奇奥等人。 [37]引入了一种混合方法，通过将自然语言生成与显着句子选择技术相结合来制作产品和服务评论的摘要。他们的“STARLET-H”系统作为混合抽象/提取摘要器运行。它采用提取摘要技术来识别输入评论中的重要引述，将其合并到自动生成的抽象摘要中，以提供赞成和/或反对观点的验证、披露或理由。然而，该算法需要大量的训练数据来理解方面顺序。 LLORET 和 ROM-FERRI [38] 提出了 COMPENDIUM ATS 系统，用于生成生物医学领域的研究出版物摘要。该系统生成两种不同类型的通用摘要：提取式摘要和抽象导向摘要，并附有各自的 COMPENDIUM 变体：COMENDIUM-E 和 COMPENDIUM-A。提取方法有选择地挑选和提取最相关的句子，而面向抽象的方法则混合了提取和抽象技术，结合信息压缩和融合阶段。巴特等人。在[39]中介绍了“SumItUp”，一个单文档混合TS系统。该混合系统由两个阶段组成：（1）提取句子选择，使用统计特征（句子长度、句子位置、TF-IDF、名词短语、动词短语、专有名词、聚合余弦相似度和提示短语）生成摘要，以及语义特征（文本中描述的情感）。在提取摘要中，利用余弦相似度来消除冗余句子。对于抽象摘要生成，提取的句子经过语言生成器（Wordnet、词性标注器和 Lesk 算法的融合）的处理，将提取摘要转换为抽象再现。