[发明专利]基于模式匹配和实体匹配的数据融合方法、装置、系统在审
申请号: | 201810594208.9 | 申请日: | 2018-06-11 |
公开(公告)号: | CN108960292A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 李直旭;顾斌斌 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 215137 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 匹配 模式匹配 数据融合 可读存储介质 数据融合装置 修正 初始连接 匹配结果 记录组 再利用 准确率 记录 成功 | ||
本发明公开了一种基于模式匹配和实体匹配的数据融合方法,通过利用给定的初始连接的记录对进行实体匹配,然后再利用当前实体匹配的结果进行模式匹配,然后再根据模式匹配的结果进行实体匹配,以此类推,每一轮匹配均以上一轮的匹配结果作为输入数据,在前一轮的成功匹配的记录对的基础上再次进行匹配,可以使我们能够修正前一轮中可能的错误匹配或没有找到记录组,不断地去修正模式匹配的结果。直到模式和实体匹配的结果都趋于稳定。该方法可以提高数据融合的准确率,提升数据价值。本发明还公开了一种基于模式匹配和实体匹配的数据融合装置、系统及一种可读存储介质,具有上述有益效果。
技术领域
本发明涉及电子技术领域,特别涉及一种基于模式匹配和实体匹配的数据融合方法、装置、系统及一种可读存储介质。
背景技术
数据融合指对按时序获得的若干观测信息,在一定准则下加以自动分析、综合,以完成所需的决策和评估任务而进行的信息处理技术。随着计算机技术、通信技术的快速发展,且日趋紧密地互相结合,加之军事应用的特殊迫切需求,数据融合技术作为数据处理的新兴技术显得尤为重要。
在当今数据膨胀的年代,如何解决各数据源之间的数据不一致性成了一个很重要的问题,数据由于记录的属性的标注方式不统一,数据本身的错误等等质量问题融合十分困难,解决这个问题涉及到两个方面:模式层的不一致性和元组间的不一致性,因此,各数据源之间的融合需要两个步骤:模式匹配和实体匹配。模式匹配是为了找出不同数据集中的相同属性,而实体匹配就是为了找出统一数据集中或者不同数据集中表示相同实体的实例对。数据融合则是把各种不一致的数据整合成统一的数据格式并保留他们独有的一些信息。
目前,对数据进行融合时都把模式匹配和实体匹配当做两个独立的步骤,即首先做一次模式匹配,然后做一次实体匹配。这种数据融合方法只给了我们唯一一次机会去做模式匹配和实体匹配,丧失了更多的机会去调整以及修正模式匹配和实体匹配的结果,数据融合准确率较低,导致大量有用数据被忽略。
因此,如何提高数据融合的准确率,提升数据价值,是本领域技术人员需要解决的技术问题。
发明内容
本发明的目的是提供一种基于模式匹配和实体匹配的数据融合方法,该方法可以提高数据融合的准确率,提升数据价值;本发明的另一目的是提供一种基于模式匹配和实体匹配的数据融合装置、系统及一种可读存储介质,具有上述有益效果。
为解决上述技术问题,本发明提供一种基于模式匹配和实体匹配的数据融合方法,包括:
步骤1:接收初始连接的模式匹配成功的记录对;
步骤2:获取模式匹配成功的记录对作为模式匹配记录对,对所述模式匹配记录对对应的数据进行实体匹配;
步骤3:判断是否存在实体匹配成功的记录对,如果存在,进入步骤4;如果没有实体匹配成功的记录对,进入步骤6;
步骤4:获取实体匹配成功的记录对作为实体匹配记录对,对所述实体匹配记录对对应的数据进行模式匹配;
步骤5:判断是否存在模式匹配成功的记录对,如果存在,进入步骤2;如果没有模式匹配成功的记录对,进入步骤6;
步骤6:获取所有匹配成功的记录对。
优选地,所述模式匹配与所述实体匹配的记录索引方法具体为:基于q-gram的多属性交互索引。
优选地,所述基于q-gram的多属性交互索引的建立方法包括:
根据所述初始连接的模式匹配成功的记录对建立动态索引;
移除索引中区分度高于区分度阈值的记录对;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810594208.9/2.html,转载请声明来源钻瓜专利网。