[发明专利]一种融合实体描述及类型的知识图谱表示学习方法有效
申请号: | 202010623201.2 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111753101B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 李弼程;杜文倩;王瑞;张敏 | 申请(专利权)人: | 华侨大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/30;G06K9/62 |
代理公司: | 厦门市首创君合专利事务所有限公司 35204 | 代理人: | 张松亭 |
地址: | 362000 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 实体 描述 类型 知识 图谱 表示 学习方法 | ||
1.一种融合实体描述及类型的知识图谱表示学习方法,其特征在于,包括以下步骤:
步骤S1:利用翻译模型获得三元组实体的嵌入,将三元组中的关系当作头实体和尾实体间翻译操作,得到每个三元组实体和关系的数值向量表示;
步骤S2:采用Doc2Vec模型,对实体描述的文本信息进行嵌入;
步骤S3:通过Trans模型得到的实体嵌入,与实体层次类型映射矩阵结合,得到三元组实体类型的嵌入;
步骤S4:将所有的表示向量进行连接,得到最终的三元组实体向量,采用随机梯度下降的方法优化训练模型,进行效果评估;
步骤S1中三元组实体嵌入包括TransE模型和TransR模型获取三元组嵌入,其中,E、R分别代表知识图谱的实体集合和关系集合,具体的获取方法包括:
S11:TransE模型获取三元组嵌入;
S111:随机生成三元组头实体、关系、尾实体的向量表示,分别记为h、r、t;
S112:随机生成负样本数据;对于知识图谱中原本存在的三元组称之为正确三元组(h,r,t),用实体集合E中的实体随机替换正确三元组中的头实体或尾实体,用关系集合R中的关系随机替换正确三元组中的关系,具体为:
neg={(h′,r,t)|h′∈E}∪{(h,r′,t)|r′∈R}∪{(h,r,t′)|t′∈E}
其中,h′是对应于h的负例样本,r′是对应于r的负例样本,t′是对应于t的负例样本;
S113:优化目标函数L(h,r,t),获得基于TransE模型的三元组实体的嵌入;
其中,γ为超参数,衡量正确三元组和错误三元组的边界;d(h+r,t)=||h+r-t||,d(h+r,t)为h+r和t的距离度量;pos为知识图谱中的正确三元组;
S12:TransR模型获取三元组嵌入
S121:对于每一个关系,通过变换矩阵Mr与头实体和关系实体向量相乘,将头实体向量h和尾实体向量t映射到关系空间,得到关系空间下的实体向量表示,即:
hr=hMr,tr=tMr
S122:然后,生成负采样数据;对于知识图谱中原本存在的三元组称之为正确三元组(h,r,t),用实体集合E中的实体随机替换正确三元组中的头实体或尾实体,用关系集合R中的关系随机替换正确三元组中的关系;
S123:最后,优化目标函数L(h,r,t),获得基于TransR模型的三元组实体的嵌入;
其中,γ为超参数,衡量正确三元组和错误三元组的边界,d(h+r,t)=||hr+r-tr||;d(h+r,t)为hr+r和tr的距离度量,d(h′+r′,t′)相同;pos为知识图谱中的正确三元组;
步骤S3中三元组实体类型的获取方法为:
对于特定的三元组(h,r,t),头实体映射矩阵的计算式为:
其中,Crh代表给定的关系r下,头实体的关系类型集合,对于每一个实体类型c,ci代表实体e属于的第i个类型,为ci的映射矩阵,αi为ci对应的权重;
其中,Crt为给定关系r下,尾实体的关系类型集合,Mc是类型c的投影矩阵,Mc被定义为:
其中,m是层次类型的层数,表示第i个子类型c(i)的映射矩阵;
最后,将Mrh、Mrt与TransE得到的三元组实体嵌入相乘得到实体类型的嵌入;
步骤S4中损失函数为:
其中,γ为超参数,衡量正确三元组和错误三元组的边界,T为正例三元组集合,T’为负例三元组集合,通过随机替换正例三元组的头实体或者尾实体或者关系得到,即:
T′={(h′,r,t)|h′∈E}∪{(h,r′,t)|r′∈R}∪{(h,r,t′)|t′∈E}d(h+r,t)=||h+γ-t||,代表h+r和t的距离度量;
通过步骤S1得到三元组的嵌入es,通过步骤S2得到实体描述信息的嵌入ed,通过步骤S3得到实体类型信息的描述et,初始化向量通过组合成最终模型的初始向量,代表拼接操作.采用链接预测和三元组分类进行评估。
2.根据权利要求1所述的融合实体描述及类型的知识图谱表示学习方法,其特征在于,步骤S2中三元组实体描述的获取方法为:
S21:随机生成N维的文档向量xparagraph-id和N维文档中每个词语的独热形式的词向量xi-m,...,i+m,其中i是指由上下文预测的当前中心词的标号,m是指窗口大小;
S22:对N维的文档向量和词向量进行降维:
vi-m=Vxi-m,vi-m+1=Vxi-m+1,...,vi+m=Vxi+m,vparagraph-id=Vxparagraph-id其中,V是一个n行N列的单位矩阵,n<N;
S23:通过词向量和文档向量可以得到中心词向量yi:
其中,U为一个N行n列的单位矩阵,
S24:将中心词向量通过softmax函数进行归一化:
S25:优化目标函数;
S26:使用随机梯度下降的优化方法,最小化目标函数,更新并输出向量,得到实体描述的嵌入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华侨大学,未经华侨大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010623201.2/1.html,转载请声明来源钻瓜专利网。