[发明专利]知识图谱补全方法、装置、存储介质及电子设备有效
申请号: | 202110207313.4 | 申请日: | 2021-02-24 |
公开(公告)号: | CN112836064B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 王博;王英;常毅 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295 |
代理公司: | 北京恒博知识产权代理有限公司 11528 | 代理人: | 张晓芳 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 图谱 方法 装置 存储 介质 电子设备 | ||
1.一种知识图谱补全方法,其特征在于,所述方法包括:
获取待验证的目标知识文本;
根据所述目标知识文本与预设的知识图谱生成多个三元组;其中,三元组包括:头实体、尾实体以及头实体与尾实体之间的关系;
对各个三元组进行计算得到对应的置信度;
基于所述对应的置信度验证目标三元组,以及根据验证结果补全所述知识图谱;
所述对各个三元组进行计算得到对应的置信度之前,还包括:
获取训练集;其中,所述训练集包括正例和负例;
基于所述训练集计算结构感知三元组编码模型的第一损失函数;
基于所述训练集计算所述结构感知三元组编码模型的第二损失函数;
根据所述第一损失函数和所述第二损失函数计算出所述结构感知三元组编码模型的损失函数;
通过所述损失函数对所述结构感知三元组编码模型进行训练确定参数;
所述对各个三元组进行计算得到对应的置信度,包括:
计算所述各个三元组对应的文本特征;
基于所述文本特征计算上下文连接系数;
根据所述上下文连接系数确定对应的置信度;
所述计算所述各个三元组对应的文本特征,包括:
对所述各个三元组进行处理得到第一文本特征;其中,所述第一文本特征包括头实体特征和关系特征;
对所述第一文本特征进行连接处理得到第二文本特征;
对所述各个三元组进行处理得到第三文本特征;其中,所述第三文本特征是指尾实体特征;
所述基于所述文本特征计算上下文连接系数,包括:
通过第一翻译函数对所述第二文本特征进行处理得到第一上下文连接系数;
通过第二翻译函数对所述第三文本特征进行处理得到第二上下文连接系数;其中,所述第一翻译函数和所述第二翻译函数的参数存在共享关系;
所述根据所述上下文连接系数确定对应的置信度,包括:
基于所述第一上下文连接系数与所述第二上下文连接系数通过表达学习模型计算第一置信度;
基于所述第一上下文连接系数与所述第二上下文连接系数通过空间距离学习模型计算第二置信度;
基于所述第一置信度和所述第二置信度得到对应的置信度;
可以根据如下公式计算第一损失函数:
其中,Lc表示第一损失函数,D表示仅包含正例的训练集,N(tp)表示基于正例tp对应的一组负例,sc表示计算出的正例tp的第一置信度,(1-sc')表示根据正例tp进行负采样得到的负例tp'的第一置信度,| |表示训练集的个数;
可以根据如下公式计算第二损失函数:
其中,Ld表示第二损失函数,D表示仅包含正例的训练集,N(tp)表示基于正例tp对应的一组负例,sd表示计算出的正例tp的第二置信度,sd'表示根据正例tp进行负采样得到的负例tp'的第二置信度;
可以根据如下公式计算损失函数:
L=Lc+γLd;
其中,L表示损失函数,γ表示权重系数,Lc表示第一损失函数,Ld表示第二损失函数;
可以根据如下公式计算第一上下文连接系数:
其中,u表示第一上下文连接系数,Transformer-Enc(·)表示包含多个多头自注意层的Transformer编码器,Pool(·)用于收集句子级上下文表示,即[CLS]的嵌入表示,其中表示第二文本特征,x[CLS]和x[SEP]是在语言模型BERT中定义的特殊标识符,X(h),X(r)分别表示头实体特征和关系特征;
可以根据如下公式计算第二上下文连接系数:
其中,v表示第二上下文连接系数,Transformer-Enc(·)表示包含多个多头自注意层的Transformer编码器,Pool(·)用于收集句子级上下文表示,即[CLS]的嵌入表示,表示第三文本特征,x[CLS]和x[SEP]是在语言模型BERT中定义的特殊标识符,X(t)表示尾实体特征;
可以根据如下公式计算第一置信度:
sc=P2;
其中,softmax()表示逻辑回归模型,MLP(·)代表多层感知机,p(·)表示表达学习模型,z、θ是其可学习的参数,c可代表一个三元组的两个部分之间丰富的语义联系,c=[u;u×v;u-v;v],取P的第二维的值作为第一置信度sc;
可以根据如下公式计算第二置信度:
其中,sd表示第二置信度,Distance(·)表示空间距离学习模型,f(h,r)表示头实体和关系之间的上下文函数关系,f(t)表示尾实体的上下文函数关系,||·||表示L2范数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110207313.4/1.html,转载请声明来源钻瓜专利网。