论文原标题
A deep network model for paraphrase detection in short text messages
摘要
本文研究释义检测,即识别语义相同的句子。检测用自然语言编写的相似句子的能力对一些应用程序至关重要,如文本挖掘、文本摘要、剽窃检测、作者身份认证和问题回答。认识到这一点的重要性,特别研究如何在用户生成的短文本中检测释义,例如Twitter,提出了一种新的基于深度神经网络的方法,该方法依赖于粗粒度的句子建模,使用卷积神经网络(CNN)和循环神经网络(RNN)模型,并结合特定的细粒度词级相似度匹配模型。更具体地说,开发了一个新的体系结构,称为DeepParaphrase,可以通过以下方式创建每个句子的信息语义表示:(1) 使用 CNN 从句子中以重要的 n-gram 形式提取局部区域信息,以及 (2) 应用 RNN 来捕获长期依赖信息。此外,还对最先进的释义检测方法进行了比较研究。结果表明,现有的释义方法在纯文本中应用时表现良好,但在有噪声的文本中不一定表现良好,反之亦然。而提出的基于DeepParaphrase的方法在两种类型的文本中都取得了良好的结果,因此比现有的方法更健壮和通用。
1.引言
• 一段时间以来, Twitter 一直是表达各种话题观点的流行方式