[发明专利]一种基于分词与索引技术的重复记录检测方法有效

专利信息
申请号: 201710338278.3 申请日: 2017-05-15
公开(公告)号: CN107133335B 公开(公告)日: 2020-06-02
发明(设计)人: 谭火彬;林广艳;钱宇祥;张祎琼 申请(专利权)人: 北京航空航天大学
主分类号: G06F16/22 分类号: G06F16/22;G06F16/215;G06F40/279
代理公司: 北京科迪生专利代理有限责任公司 11251 代理人: 杨学明;顾炜
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 分词 索引 技术 重复 记录 检测 方法
【说明书】:

发明涉及一种基于分词与索引技术的重复记录检测方法,获取待处理记录集,遍历待处理记录集,选取出待分词字段集合,对每一条记录的待分词字段中的字段值进行分词,得到每条记录的分词集合;遍历待处理记录集的同时,根据获得的分词集合,建立并扩充待处理记录集的逆向索引,根据获得的逆向索引,建立并扩充待处理记录集的正向链集合;遍历结束,得到构建完成的逆向索引和正向链集合,获得候选记录对集合;采用记录重复性计算算法,对所有的候选记录对对应的待处理记录是否重复进行计算,最终得到候选记录对是否重复的结果,存储检测结果;若发生增加记录、修改记录、删除记录的增量记录,则对增量记录进行实时处理。

技术领域

本发明涉及数据清洗技术领域,涉及一种检测重复记录的方法,尤其涉及一种基于分词与索引技术的重复记录检测方法。

背景介绍

信息化的发展使得数据增长的速率逐年上升,在信息系统中数据冗余会影响系统的使用效果。如果通过纯人工的方式处理这些冗余的数据,势必造成大量的资源浪费与成本消耗。因此,重复数据的检测与处理技术是数据处理领域的重要技术点之一。重复数据检测与处理的核心是重复数据的检测方法,其目标在于满足精度要求的同时尽可能提高检测的效率,能够快速有效地识别出潜在的重复数据并进行处理。随着数据库技术的日益发展与完善,越来越多的数据以数据库记录的形式存在于信息系统中,对记录的重复检测提出了越来越高的要求。

重复记录检测的方法核心涉及两个方面的研究,一方面重点关注检测精度,研究重复记录的判别方法;另一方面重点关注检测效率,研究候选记录对比较的控制。候选记录对比较的控制方式有三种。第一种是循环遍历法,这种方法下包括不同分组在内的所有记录两两之间都需要进行比较。第二种是邻近排序法,按照某个或者某些关键字段对记录进行排序后,每条记录都以一定的规则和邻近的记录进行比较。第三种是基于散列的方法,需要将记录映射为一个标识符,具有相同标识符的记录形成一个聚类,聚类中的记录两两比较。第一种循环遍历法主要特征是循环遍历所有的记录,每一次遍历,都会以该记录为中心记录,然后和所有其他未比较过的记录进行两两比较。这种方法下,任何两条记录都至少进行过一次比较,因此时间复杂度为O(n2),计算代价过高,效率低,不能处理增量数据对记录集带来的影响;第二种邻近排序法主要特征是选取记录中的一个或者多个字段对总体的记录集进行排序,对于排序后的记录集,指定大小固定或者动态变化的窗口,每条记录周围的数据根据窗口大小分为处于窗口内部的邻近记录和处于窗口外部的无关记录,每条记录都只和窗口内部的有限条邻近记录进行两两比较。这种方法的缺点是检测的准确率严重依赖于排序字段或关键字,如果选取不当将会造成很多潜在的重复记录在排序后的记录集中相隔距离过远,不能够落于指定的邻近范围内,导致这些本应该被检测出的重复记录不能够被有效发现,降低了检测的准确率;且用以指定邻近范围的滑动窗口大小难以确定,如果窗口过小,会影响检测的准确率;反之,如果窗口过大,会降低检测的效率;较大的检测记录集会造成时间代价或内存代价较高;在检测时,每次都必须读取所有的数据,不能适应动态、实时检测的要求;第三种基于散列法,主要技术特征是对记录进行数据压缩,为每条记录构造出一个对应的散列码(Hash Code)。对于拥有相同或者相近的Hash值的记录,则视为重复记录。这种方法避免了记录之间的两两比较,不以记录值直接判定,而是通过映射的方式寻找重复记录,其缺点是难以找到合适的能够有效避免Hash冲突的Hash函数,Hash计算方法复杂,而且计算获得的Hash码存在随机性,不能保证检测结果的幂等性;Hash函数只能为记录生成一个特定的散列码,压缩的信息会让近似重复的记录之间的相似性信息缺失,不能很好的反映记录中各个字段之间与内部的差异与联系。

发明内容

本发明技术解决问题:为了克服上述技术的不足,提供一种基于分词与索引技术的重复记录检测方法,提升了检测的效率

本发明技术解决方案:一种基于分词与索引技术的重复记录检测方法,步骤如下:

步骤1,获取待处理记录集r,从记录集的所有字段中选取待分词的字段集合f;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710338278.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top