[发明专利]一种融合实体描述及类型的知识图谱表示学习方法有效

专利信息
申请号: 202010623201.2 申请日: 2020-06-30
公开(公告)号: CN111753101B 公开(公告)日: 2022-06-07
发明(设计)人: 李弼程;杜文倩;王瑞;张敏 申请(专利权)人: 华侨大学
主分类号: G06F16/36 分类号: G06F16/36;G06F40/30;G06K9/62
代理公司: 厦门市首创君合专利事务所有限公司 35204 代理人: 张松亭
地址: 362000 福建省*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 实体 描述 类型 知识 图谱 表示 学习方法
【权利要求书】:

1.一种融合实体描述及类型的知识图谱表示学习方法,其特征在于,包括以下步骤:

步骤S1:利用翻译模型获得三元组实体的嵌入,将三元组中的关系当作头实体和尾实体间翻译操作,得到每个三元组实体和关系的数值向量表示;

步骤S2:采用Doc2Vec模型,对实体描述的文本信息进行嵌入;

步骤S3:通过Trans模型得到的实体嵌入,与实体层次类型映射矩阵结合,得到三元组实体类型的嵌入;

步骤S4:将所有的表示向量进行连接,得到最终的三元组实体向量,采用随机梯度下降的方法优化训练模型,进行效果评估;

步骤S1中三元组实体嵌入包括TransE模型和TransR模型获取三元组嵌入,其中,E、R分别代表知识图谱的实体集合和关系集合,具体的获取方法包括:

S11:TransE模型获取三元组嵌入;

S111:随机生成三元组头实体、关系、尾实体的向量表示,分别记为h、r、t;

S112:随机生成负样本数据;对于知识图谱中原本存在的三元组称之为正确三元组(h,r,t),用实体集合E中的实体随机替换正确三元组中的头实体或尾实体,用关系集合R中的关系随机替换正确三元组中的关系,具体为:

neg={(h′,r,t)|h′∈E}∪{(h,r′,t)|r′∈R}∪{(h,r,t′)|t′∈E}

其中,h′是对应于h的负例样本,r′是对应于r的负例样本,t′是对应于t的负例样本;

S113:优化目标函数L(h,r,t),获得基于TransE模型的三元组实体的嵌入;

其中,γ为超参数,衡量正确三元组和错误三元组的边界;d(h+r,t)=||h+r-t||,d(h+r,t)为h+r和t的距离度量;pos为知识图谱中的正确三元组;

S12:TransR模型获取三元组嵌入

S121:对于每一个关系,通过变换矩阵Mr与头实体和关系实体向量相乘,将头实体向量h和尾实体向量t映射到关系空间,得到关系空间下的实体向量表示,即:

hr=hMr,tr=tMr

S122:然后,生成负采样数据;对于知识图谱中原本存在的三元组称之为正确三元组(h,r,t),用实体集合E中的实体随机替换正确三元组中的头实体或尾实体,用关系集合R中的关系随机替换正确三元组中的关系;

S123:最后,优化目标函数L(h,r,t),获得基于TransR模型的三元组实体的嵌入;

其中,γ为超参数,衡量正确三元组和错误三元组的边界,d(h+r,t)=||hr+r-tr||;d(h+r,t)为hr+r和tr的距离度量,d(h′+r′,t′)相同;pos为知识图谱中的正确三元组;

步骤S3中三元组实体类型的获取方法为:

对于特定的三元组(h,r,t),头实体映射矩阵的计算式为:

其中,Crh代表给定的关系r下,头实体的关系类型集合,对于每一个实体类型c,ci代表实体e属于的第i个类型,为ci的映射矩阵,αi为ci对应的权重;

其中,Crt为给定关系r下,尾实体的关系类型集合,Mc是类型c的投影矩阵,Mc被定义为:

其中,m是层次类型的层数,表示第i个子类型c(i)的映射矩阵;

最后,将Mrh、Mrt与TransE得到的三元组实体嵌入相乘得到实体类型的嵌入;

步骤S4中损失函数为:

其中,γ为超参数,衡量正确三元组和错误三元组的边界,T为正例三元组集合,T’为负例三元组集合,通过随机替换正例三元组的头实体或者尾实体或者关系得到,即:

T′={(h′,r,t)|h′∈E}∪{(h,r′,t)|r′∈R}∪{(h,r,t′)|t′∈E}d(h+r,t)=||h+γ-t||,代表h+r和t的距离度量;

通过步骤S1得到三元组的嵌入es,通过步骤S2得到实体描述信息的嵌入ed,通过步骤S3得到实体类型信息的描述et,初始化向量通过组合成最终模型的初始向量,代表拼接操作.采用链接预测和三元组分类进行评估。

2.根据权利要求1所述的融合实体描述及类型的知识图谱表示学习方法,其特征在于,步骤S2中三元组实体描述的获取方法为:

S21:随机生成N维的文档向量xparagraph-id和N维文档中每个词语的独热形式的词向量xi-m,...,i+m,其中i是指由上下文预测的当前中心词的标号,m是指窗口大小;

S22:对N维的文档向量和词向量进行降维:

vi-m=Vxi-m,vi-m+1=Vxi-m+1,...,vi+m=Vxi+m,vparagraph-id=Vxparagraph-id其中,V是一个n行N列的单位矩阵,n<N;

S23:通过词向量和文档向量可以得到中心词向量yi

其中,U为一个N行n列的单位矩阵,

S24:将中心词向量通过softmax函数进行归一化:

S25:优化目标函数;

S26:使用随机梯度下降的优化方法,最小化目标函数,更新并输出向量,得到实体描述的嵌入。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华侨大学,未经华侨大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010623201.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top