RDGCN阅读笔记

Relation-Aware Entity Alignment for Heterogeneous Knowledge Graphs

面向异质知识图谱的关系感知实体对齐

Abstract

实体对齐是从不同的知识图(KGs)中链接具有相同真实世界实体的任务，最近被基于嵌入的方法所主导。这种方法通过学习KG表示来工作，以便可以通过测量实体嵌入之间的相似性来执行实体对齐。虽然有希望，但该领域的现有工作往往不能很好地捕获多关系KGs中常见的复杂关系信息，留下了很大的改进空间。本文提出了一种新的关系感知双图卷积网络(RDGCN)，通过知识图与其对偶关系副本之间的密切交互来融合关系信息，并进一步捕获邻域结构以学习更好的实体表示。在三个真实的跨语言数据集上的实验表明，我们的方法通过学习更好的KG表示，比最先进的对齐方法提供了更好和更健壮的结果。

1 Introduction

KGs中的知识通常被组织成 $\langle head entity, relation, tail entity \rangle$ 的三元组。现有的大多数方法都使用跨家族模型作为嵌入KG的主干，这些KG受假设 $\approx tail$ 的约束。这种强假设使得该模型不能有效地捕捉多关系图中更复杂的关系信息。跨家族方法不能捕捉图中描述的三角形结构，如果使用跨家族学习KG表示，则对齐性能将不可避免地受到影响，因为更复杂的结构，如三角形结构，经常出现在多关系图中。

基于GCN的模型代表了基于嵌入的实体对齐的飞跃。然而，这种方法也无法正确地对关系信息进行建模。由于普通GCN是在无向和无标号图上操作的，因此基于GCN的模型会忽略KG的有用关系信息。DPGCNN在图及其对偶图上交替进行卷积操作，其顶点对应于原始图的边缘，并迭代地应用图注意力机制来使用其对偶图增强原始边缘表示。

受DPGCNN的启发，在本文中，提出了一种新的具有感知能力的双图卷积网络(RDGCN)，RDGCN方法通过与原始实体图和对偶关系图之间的多轮交互，有效地将更复杂的关系信息融入实体表示。为了进一步融合邻域结构信息，我们还扩展了带有高速公路门控的GCN。

这项工作的主要贡献是一种新的DPGCNN为基础的模型学习强大的KG表示。

2 Related Work

2.1 Graph Convolutional Networks

对扩展神经网络来处理图形的工作：光谱方法、空间方法

GCN：已经成为许多NLP任务的强大的基于深度学习的方法
R-GCN：对关系数据进行建模，并已成功地用于链接预测和实体分类
DPGCNN(GAT模型的推广)：顶点分类，链接预测和图引导矩阵

3 Problem Formulation

KG表示 $G = (E, R, T)$ ，其中 $E, R, T$ 分别是实体，关系和三元组的集合。

两个异质KG： $G_1 =(E_1,R_1,T_1)$ 和 $G_2 =(E_2,R_2,T_2)$

种子： $\mathbb L = \{(e_{i1},e_{i2})|e_{i1}\in E_1,e_{i2}\in E_2\}$

4 Our Approach: RDGCN

给定输入KG(即原始图)，首先构造其对偶关系图，其顶点表示原始图中的关系，然后利用图注意机制来鼓励对偶关系图与原始图之间的交互.然后将原始图中的结果顶点表示馈送到具有高速公路门控的GCN层，以捕获相邻的结构信息。最终的实体表示将用于确定两个实体是否应对齐。(可以分三个部分：对偶图的构建，对偶图与原始图的交互，和结构信息集成)

其中， $G_1^r,G_2^r$ 分别是 $G_1^e,G_2^e$ 的对偶关系图，在 RDGCN 模型中， $\mathcal G^e$ 由 $G_1^e, G_2^e$ 组成， $\mathcal G^r$ 由 $G_1^r, G_2^r$ 组成。

4.1 Constructing the Dual Relation Graph

将 $G_1$ 和 $G_2$ 放在一起作为原始图 $\mathcal G^e =(\mathcal V^e, \mathcal E^e)$ ，其中顶点集 $\mathcal V^e = E_1 \cup E_2$ 是 $G_1$ 和 $G_2$ 中所有顶点的并集，边集 $\mathcal E^e = T_1 \cup T_2$ 是 $G_1$ 和 $G_2$ 中所有边/三元组的并集。

给定原始图 $\mathcal G^e$ ，其对偶关系图 $\mathcal G^r =(\mathcal V^r,\mathcal E^r）$ 构造如下：

对于 $\mathcal G^e$ 中的每种类型的关系 $r$ ， $\mathcal V^r$ 中将存在顶点 $v^r$ ，因此 $\mathcal V^r = R_1 \cup R_2$ ；
如果两个关系 $r_i$ 和 $r_j$ 在 $\mathcal G^e$ 中共享相同的头或尾实体，则在 $\mathcal G^r$ 中创建连接 $v_i^r$ 和 $v^r_j$ 的边 $u^r_{ij}$ 。

根据两个关系 $v^r_i$ 和 $v^r_j$ 在 $\mathcal G^e$ 中共享类似头部或尾部的可能性，用权重 $w^r_{ij}$ 对 $\mathcal G^r$ 中的每条边 $u^r_{ij}$ 进行加权，计算如下：
$w_{ij}^r=H(r_i,r_j)+T(r_i,r_j)$

$H(r_i,r_j)=\frac{H_i\cap H_j}{H_i\cup H_j},T(r_i,r_j)=\frac{T_i\cap T_j}{T_i\cup T_j}$

其中 $H_i$ 和 $T_i$ 分别是 $\mathcal G^e$ 中关系 $r_i$ 的头和尾实体的集合。构造对偶图的开销与原始图中的关系类型的数量成比例。

4.2 Interactions between Dual and Primal Graphs

引入对偶关系图的目的是更好地将关系信息融入到原始图表示中。为此，我们建议应用图注意机制(GAT)迭代地获得对偶关系图和原始图的顶点表示，其中注意机制有助于提示两个图之间的交互。每一个双原始交互包含两个层，双注意层和原始注意层。

Dual Attention Layer(双重注意层)

令 $\mathbf{X}^r \in \mathbb R^{m\times 2d}$ 表示输入对偶顶点表示矩阵，其中每行对应于对偶关系图 $\mathcal G^r$ 中的一个顶点。不同于普通的GAT使用原始顶点特征来计算双重注意力分数 $\hat{\mathbf{X}}^e$ 由来自先前交互模块的原始注意力层产生：
$\tilde{\mathbf{x}}_{i}^{r}=\sigma^{r}(\sum_{j\in N_{i}^{r}}\alpha_{ij}^{r}\mathbf{x}_{j}^{r}),$

$\alpha_{ij}^{r}=\frac{exp(\eta(w_{ij}^{r}a^{r}[\mathbf{c}_{i}\|\mathbf{c}_{j}]))}{\sum_{k\in N_{i}^{r}}exp(\eta(w_{ik}^{r}a^{r}[\mathbf{c}_{i}\|\mathbf{c}_{k}]))},$

其中， $\tilde{\mathbf{x}}_i^r$ 表示在对偶顶点 $v^r_i$ 处的 $d^{'}$ 维输出表示(对应于关系 $r_i \in \mathcal G^e$ )； $\tilde{\mathbf{x}}_j^r$ 表示顶点 $v^r_j$ 的对偶表示； $N^r_i$ 是 $v^r_i$ 的邻居索引的集合； $\alpha^r_{ij}$ 是对偶注意力分数； $a^r$ 是将 $2 d^{'}$ 维输入映射到标量中的全连接层； $\sigma_r$ 是激活函数ReLU； $\eta$ 是修正线性单元(Leaky ReLU)； $\mathbf c_i$ 是从先前的原始注意力层获得的 $\mathcal G^e$ 中的关系 $r_i$ 的关系表示。

基于图嵌入的框架中，由于训练数据有限，无法直接提供关系表示。因此，通过连接 $\mathcal G^e$ 中的平均头部和尾部实体表示来近似 $r_i$ 的关系表示：
$\mathbf{c}_{i}=[\frac{\sum_{k\in H_{i}}\hat{\mathbf{x}}_{k}^{e}}{|H_{i}|}\|\frac{\sum_{l\in T_{i}}\hat{\mathbf{x}}_{l}^{e}}{|T_{i}|}],$
其中， $\hat{\mathbf{x}}_{k}^{e}和\hat{\mathbf{x}}_{l}^{e}$ 是来自先前的主要关注层的关系 $r_i$ 的第 $k$ 个头实体和第 $l$ 个尾实体的输出表示。

Primal Attention Layer(原始注意力层)

使用 $\mathbf{X}^e \in \mathbb R^{n\times d}$ 来表示输入原始顶点表示矩阵。对于原始图 $\mathcal G^e$ 中的实体 $e_q$ ，其表示 $\hat{\mathbf{x}}_{q}^{e}$ 可以通过下式计算：

$\tilde{\mathbf{x}}_{q}^{e}=\sigma^{e}(\sum_{t\in N_{q}^{e}}\alpha_{qt}^{e}\mathbf{x}_{t}^{e}),$

$\alpha_{qt}^{e}=\frac{exp(\eta(a^{e}(\tilde{\mathbf{x}}_{qt}^{r})))}{\sum_{k\in N_{q}^{e}}exp(\eta(a^{e}(\tilde{\mathbf{x}}_{qk}^{r})))},$

其中， $\tilde{\mathbf{x}}_{qt}^{r}$ 表示从 $\mathcal G^r$ 获得的 $r_{qt}$ (实体 $e_q$ 和 $e_t$ 之间的关系)的对偶表示； $\alpha^e_{qt}$ 是原始注意力分数； $N^e_q$ 是 $\mathcal G^e$ 中实体 $e_q$ 的邻居索引的集合； $a^e$ 是将 $d^{'}$ 维输入映射到标量的全连接层， $\sigma^e$ 是原始层激活函数。

原始顶点的初始表示矩阵 $\mathbf{X}^{e\_init}$ ，可以使用实体名称初始化，这为实体对齐提供了重要的证据。因此，我们通过将初始表示与原始注意力层的输出混合来显式地保留证据：

$\hat{\mathbf{x}}_{q}^{e}=\beta_{s}*\tilde{\mathbf{x}}_{q}^{e}+\mathbf{x}_{q}^{e\_init},$

其中， $\tilde{\mathbf{x}}_{q}^{e}$ 表示 $\mathcal G^e$ 中实体 $e_q$ 的交互模块的最终输出表示； $\beta_s$ 是第 $s$ 个主要注意力层的加权参数。

4.3 Incorporating Structural Information

在对偶关系图和原始图之间的多轮交互之后，从原始图中收集关系感知实体表示。接下来，将带有高速公路门的双层GCN应用于生成的原始图，以进一步纳入来自其相邻结构的证据。

在具有实体表示 $X^{(l)}$ 作为输入的每个GCN层 $l$ 中，输出表示 $X^{(l+1)}$ 可以被计算为：
$X^{(l+1)}=\xi(\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}}X^{(l)}W^{(l)}),$

其中， $\tilde A = A+I$ 是添加了自连接的原始图 $\mathcal G^e$ 的邻接矩阵， $I$ 是单位矩阵； $\tilde D_{jj} = \sum_k\tilde A_{jk}$ ， $W^{(l)}\in \mathbb R^{d(l)}\times d^{(l+1)}$ 是层特定的可训练权重矩阵； $\xi$ 是激活函数ReLU。在构造 $A$ 时，将 $\mathcal G^e$ 视为无向图，以允许信息在两个方向上流动。