[发明专利]一种基于分词与索引技术的重复记录检测方法有效
申请号: | 201710338278.3 | 申请日: | 2017-05-15 |
公开(公告)号: | CN107133335B | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 谭火彬;林广艳;钱宇祥;张祎琼 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/215;G06F40/279 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;顾炜 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分词 索引 技术 重复 记录 检测 方法 | ||
1.一种基于分词与索引技术的重复记录检测方法,其特征在于步骤如下:
步骤1,获取待处理记录集r,从记录集的所有字段中选取待分词的字段集合f;
步骤2,遍历待处理记录集,根据步骤1中选取出的待分词字段集合f,对每一条记录的待分词字段中的字段值进行分词,得到每条记录的分词集合w;
遍历待处理记录集r同时,根据获得的分词集合w,建立并扩充待处理记录集的逆向索引,根据获得的逆向索引,建立并扩充待处理记录集的正向链集合;遍历结束,得到构建完成的逆向索引和正向链集合,并将得到的逆向索引持久化存储;
所述逆向索引结构为wi={r1,r2,…,rm},等号左边为键,等号右边为值,其中键为分词过程中出现过的某一个分词wi,值为包含该分词wi的记录对应的记录索引集合,集合中的rm为待处理记录的索引值;借助逆向索引能够根据某个分词查询到包含该分词的所有待处理记录的索引值rm,根据查询到的索引值rm进而查询到对应的待处理记录;
所述正向链集合结构为rj={{r11,r12,…,r1m},…,{rk1,rk2,…,rkm}},其中等号左边为键,等号右边为值,键rj为待处理记录的索引值,值为由集合元素组成的集合,值中集合元素的个数等于通过rj索引到的待处理记录的分词集合wj中的分词数,每个集合元素即为以wi为键的逆向索引的值;
步骤3,设置阈值,遍历记录待处理集r,根据步骤2中的正向链集合,获得候选记录对集合,每个候选记录对的结构为{r1,r2},其中r1、r2为待处理记录的索引;
步骤4,采用记录重复性计算算法,对所有的候选记录对{r1,r2}对应的待处理记录是否重复进行计算,最终得到候选记录对是否重复的结果,存储检测结果;
步骤5,若发生增加记录、修改记录、删除记录的增量记录,则对增量记录进行实时处理;
所述步骤2中,遍历待处理记录集r同时,根据获得的分词集合w,建立并扩充待处理记录集的逆向索引,根据获得的逆向索引,建立并扩充待处理记录集的正向链集合的步骤如下:
(11)从待处理记录集r中取出一条记录,记录的索引为rk;
(12)根据步骤1中的字段集合f,对记录的待分词字段值进行分词,分词集合结果words={w1,w2,…,wi},wi表示分词,i表示该记录分词数量;
(13)判断wi是否已经出现过;
(14)如果未出现过,则构建逆向索引wi={},记录索引集合中的元素会随着遍历逐渐添加;
(15)将当前记录索引rk添加到wi对应的记录索引集合中;以当前记录索引rk为键,建立rk与wi的记录索引集合的映射关系,即rj链向wi的记录索引集合,当遍历结束,rk会根据记录的分词结果,链向多个记录索引集合;
(16)遍历待处理数据集结束,逆向索引与正向链集合构建完成;
所述步骤3中,获得候选记录对集合的过程如下:
(21)确定候选记录对的筛选标准;
(22)依次取出待处理记录集中r的记录rq;
(23)初始化候选记录对集合candidate为空;
(24)根据步骤2计算出的正向链集合,获得以记录rq为键的正向链集合的值,即记录rq对应的所有记录索引集合,每个记录索引集合代表与记录rq出现过某个相同分词的所有记录索引值;
(25)对所有记录索引集合中出现的记录进行统计;
(26)根据步骤(25)的统计结果和步骤(21)设定的筛选标准,判断统计结果中哪些记录满足和记录rq构成候选记录对的条件;
(27)将所有满足条件的记录分别和记录rq组成候选记录对添加到candidate集合中。
2.根据权利要求1所述的基于分词与索引技术的重复记录检测方法,其特征在于:所述步骤5,对增量记录进行实时处理的过程如下:
获取增量记录集中的一条记录,对该增量记录进行分词处理;
若增量记录对应的是增加记录,如果分词不存在,则构建新的逆向索引,如果分词存在,则取出存储的逆向索引,将该记录索引加入逆向索引中的记录索引集合中,构建该记录的正向链集合;
对正向链集合中出现的记录索引进行统计,根据记录的正向链集合和设定的候选记录对筛选标准,筛选出候选记录对;
采用记录重复性计算算法,对候选记录对是否重复进行检测,存储结果;
若增量记录对应的是删除操作,则删除所有已存储的该记录的记录索引,如果存在已检测出的重复记录,则删除该重复记录检测结果;
若增量记录对应的是更新操作,则对被更新的原记录执行一次删除操作,将更新后的记录当作新的纪录,执行一次增加操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710338278.3/1.html,转载请声明来源钻瓜专利网。