TransC:Differentiating Concepts and Instances for Knowledge Graph Embedding

2024-04-02 05:30:03
开发
39

引言

传统方法：

基于翻译的方法：如TransE、TransD、TransH、TransR等
使用外部信息，如：
- 实体类型
- 文本描述
- 逻辑规则

这些传统方法的缺点是：忽视了概念与实例之间的区别，这导致了以下问题：

概念表示不足：大多数方法将概念和实例都编码为向量，这无法明确表示概念和实例之间的差异
对于isA关系的敏感性不足：instanceOf和subClassOf（通常称为isA）是知识图谱中的两种特殊关系。

动机

层次概念：人们心中的概念是按层次组织的。因此，实例应该靠近它们所属的概念。
在TransC中，概念被编码为一个球体，实例作为向量在同一语义空间中，采用相对位置来模拟概念和实例之间的关系。

符号与概念

关系集合 $\mathcal{R}=\{r_e,r_c\}\cup\mathcal{R}_l$ ，其中 $R_{l}$ 是实例之间的关系， $r_e$ 是instanceOf关系， $r_c$ 是subClassOf关系。
InstanceOf三元组集合 $\mathcal{S_{e}} =\{(i,r_{e} ,c)_{k}\}^{n_{e}}_{k=1},$
其中 $\in \mathcal{I}, c \in C, n_{e}$ 是 $S_{e}$ 的大小
SubClassOf三元组集合 $\mathcal{S_{c}}=\{(c_{i},r_{c},c_{j})_{k}\}^{n_{c}}_{k=1},$
关系三元组： $\mathcal{S_{l}}=\{h,r,t\}_{k=1}^{n_{l}}$
其中 $\in \mathcal{I}$ , $\in \mathcal{R_{l}}$ 。
概念：对于 $\in \mathcal{C}$ ，我们学习一个球体 $s(\mathbf{p},m)$ ，其中 $\mathbf{p}$ 是球心， $m$ 表示半径。
传递性：
- InstanceOf-subClassOf的传递性关系可以表示为下列等式 $(i,r_{e},c_{1})\in S_{e} \wedge (c_{1},r_{c},c_{2})\in S_{c} \rightarrow (i,r_{e},r_{2})\in S_{e}$
- SubClassOf-subClassOf的传递性可以表示为： $(c_{1},r_{c},c_{2})\in S_{c} \wedge (c_{2},r_{c},c_{3})\in S_{c}\to (c_{1},r_{c},c_{3})\in S_{c}$

方法

不同概念的关系

作者提出了新的损失函数来衡量嵌入空间中的相对位置，并基于翻译模型共同表示概念、实例和关系。

InstanceOf三元组表示：对于InstanceOf三元组 $i,r_e,s)$ ，如果为真，则 $\mathbf{i}$ 应该在球体 $s$ 内部，以表示它们之间的instanceOf关系。因此，损失函数定义为 $f_{e}(i,c)=\Vert \mathbf{i}-\mathbf{p}\Vert_{2}-m$
SubClassOf三元组表示：对于三元组 $c_{i},r_{c},c_{j})$ ，概念 $c_{i},c_{j}$ 被编码

为球体 $s_{i}(p_{i},m_{i})$ 。如果 $c_i$ 是 $c_{j}$ 的子类，则它们的中心应该接近。但是，球体 $s_{i}$ 和 $s_{j}$ 之间存在许多相对位置。因此，损失函数定义为 $\begin{align} &d=\Vert p_{i}-p_{j}\Vert_{2} & (a)\\ & f_c(c_i,c_j)=||\mathbf{p}_i-\mathbf{p}_j||_2+m_i-m_{j} &\qquad(b) \\ & f_c(c_i,c_j)=||\mathbf{p}_i-\mathbf{p}_j||_2+m_i-m_{j} &\qquad(c) \\ &f_c(c_i,c_j)=m_i-m_{j} &(d) \end{align}$

关系三元组表示：对于 $(h, r, t)$ ，损失函数如TransE，定义为 $f_{r}(h,t)=\Vert h+r-t\Vert_{2}^{2}$

训练方法

`instanceOf`三元组

作者使用

$\xi$ 和 $\xi'$ 表示正例和负例三元组。
$\mathcal{S_{e}}$ 和 $\mathcal{S_{e}'}$ 表示正例和负例三元组集合
$x]_{+}$ 表示 $ma x (0, x)$
$\gamma_{e}$ 是正例和负例三元组之间的间隔
$\mathcal{L}_e=\sum_{\xi\in\mathcal{S}_e}\sum_{\xi^{\prime}\in\mathcal{S}_e^{\prime}}[\gamma_e+f_e(\xi)-f_e(\xi^{\prime})]_+,$

`subClassOf`三元组

$\mathcal{L}_c=\sum_{\xi\in\mathcal{S}_c}\sum_{\xi^{\prime}\in\mathcal{S}_c^{\prime}}[\gamma_c+f_c(\xi)-f_c(\xi^{\prime})]_+,$

关系三元组

$\mathcal{L}_l=\sum_{\xi\in\mathcal{S}_l}\sum_{\xi^{\prime}\in\mathcal{S}_l^{\prime}}[\gamma_l+f_r(\xi)-f_r(\xi^{\prime})]_+.$

总损失

$\mathcal{L}=\mathcal{L_{e}}+\mathcal{L_{c}}+\mathcal{L_{l}}$

训练集

对于一个真实的关系三元组 $(h, r, t)$ ，通过替换 $h$ 或 $t$ 为 $h^{'}$ 或 $t^{'}$ 来生成负例，其中 $h^{'}$ 是从集合 $\mathcal{M_{t}}=\mathcal{M_{1}} \cup \mathcal{M_{2}} \dots \mathcal{M_{n}}$ 中随机挑选的，其中 $M_{i}=\{a|a\in I \wedge (a,r_{e},c_{i})\in \mathcal{S_{e}} \wedge (t,r_{e},c_{i}) \in \mathcal{S_{e}} \wedge t \neq a \}$ ，也就是从把头实体或者是尾实体换成相同概念的实体或者是不同概念的实体。

生成策略包括：

均匀采样
伯努利采样：基于链接头尾实体数目栏进行采样，数目多的实体被采样的概率更大。

实验

对链接预测和三元组分类进行实验
在这里插入图片描述

源代码

原文地址:https://blog.csdn.net/zerokusinage/article/details/137208681 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1774912129745424384.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部