[发明专利]一种知识图谱中实体对齐方法、系统及其存储介质在审
申请号: | 201910485558.6 | 申请日: | 2019-06-05 |
公开(公告)号: | CN110245131A | 公开(公告)日: | 2019-09-17 |
发明(设计)人: | 王渊;冯珺;徐海洋;冯烛明;樊华;王鑫;张淑娟 | 申请(专利权)人: | 江苏瑞中数据股份有限公司;国家电网有限公司;南瑞集团有限公司;国网浙江省电力有限公司信息通信分公司;国网安徽省电力有限公司电力科学研究院 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/28;G06Q50/06 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 颜盈静 |
地址: | 210012 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对齐 训练数据 图谱 存储介质 可信实体 输出结果 一次迭代 迭代 更新 | ||
本发明公开了一种知识图谱中实体对齐方法、系统及其存储介质,包括:步骤1:采用第一训练数据对第一实体对齐模型进行训练,采用第二训练数据对第二实体对齐模型进行训练,第一实体对齐模型每一次迭代训练得到的可信实体更新第二训练数据,第二实体对齐模型每一次迭代训练得到的可信实体更新第一实体对齐模型,当迭代次数达到设置的最大次数或第一实体对齐模型的输出结果与第二实体对齐模型的输出结果在设定的阈值范围内后停止迭代,得到最终的实体对齐模型;步骤2:将待对齐的图谱输入至步骤1得到的最终的实体对齐模型中,得到实体对齐结果。
技术领域
本发明属于电力大数据的智能应用领域,具体涉及一种知识图谱中实体对齐方法、系统及其存储介质。
背景技术
随着大数据技术的不断发展,积累了大量尚未被有效利用的数据,这些数据蕴藏的价值越来越受到企业内部和学术界的重视。为实现数据的统一汇聚和共享应用,需构建数据的知识图谱,建立起数据的语义连接网,为用户提供语义级互操作的统一数据服务,但由于数据来自不同系统,它们对同一对象往往有各自的描述规则,使得从不同系统中抽取的实体和关系存在大量异构、冗余的情况,通过实体对齐将指向同一对象的实体进行清理合并,解决知识图谱中的实体复用问题,是构建高质量的数据知识图谱的关键步骤。
实体对齐技术旨在发现来自不同数据集的指向同一对象的那些实体,并通过OWL:sameAs等共指链接的构建将这些实体链接为一个具有统一化的全局唯一标识的对象,实现数据源之间的高质量链接,推进知识图谱构建。实体对齐方法主要分为两大类,一类是基于属性相似度的实体对齐方法,另一类是基于知识表示学习对齐实体关系进行推断。基于属性相似度的推断主要依据待对齐实体之间是否具有相同的属性及相应属性值的集合来判断的。基于表示学习的推断使用建模方法将知识图谱中的实体和关系映射到低维稠密向量空间中,然后进行计算和推理。
但需要找到不同数据集内的实体间的对应关系,直接使用知识表示模型或基于属性相似度推断难以达到令人满意的效果,并且目前使用的方法需要大量标注好的实体对齐数据,这在实际中意味着需要大量电力业务专家的参与,难以实现。
发明内容
为解决现有技术中存在的问题,本发明提出一种知识图谱中实体对齐方法,融合知识表示学习和属性相似度推断的实体对齐结果,是两方面的结果互为补充,已达到对数据较好的实体对齐效果。
本发明所采用的技术方案是:一种知识图谱中实体对齐方法,包括以下步骤:
步骤1:采用第一训练数据对第一实体对齐模型进行训练,采用第二训练数据对第二实体对齐模型进行训练,第一实体对齐模型每一次迭代训练得到的可信实体更新第二训练数据,第二实体对齐模型每一次迭代训练得到的可信实体更新第一实体对齐模型,当迭代次数达到设置的最大次数或第一实体对齐模型的输出结果与第二实体对齐模型的输出结果在设定的阈值范围内后停止迭代,得到最终的实体对齐模型;
步骤2:将待对齐的知识图谱输入至步骤1得到的最终的实体对齐模型中,得到实体对齐结果。
进一步的,当用于完成电网知识图谱中实体对齐时,所述第一训练数据和第二训练数据为电力专用术语数据。
进一步的,所述第一训练数据为语义特征视角下的训练数据,包括第一对齐数据集和第一未对齐数据集;所述第二训练数据为属性结构特征视角下的训练数据,包括第二对齐数据集和第二未对齐数据集;
所述第一实体对齐模型为表示学习的实体对齐模型;所述第二实体对齐模型为基于属性相似度匹配的的实体对齐模型。
进一步的,所述步骤1具体包括:
采用第一对齐数据集训练得到第一实体对齐模型,使用第一实体对齐模型对第一未对齐数据集进行预测,得到可信实体对L′se,将其放入第二对齐数据集中,更新第二对齐数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏瑞中数据股份有限公司;国家电网有限公司;南瑞集团有限公司;国网浙江省电力有限公司信息通信分公司;国网安徽省电力有限公司电力科学研究院,未经江苏瑞中数据股份有限公司;国家电网有限公司;南瑞集团有限公司;国网浙江省电力有限公司信息通信分公司;国网安徽省电力有限公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910485558.6/2.html,转载请声明来源钻瓜专利网。