[发明专利]一种基于分词与索引技术的重复记录检测方法有效
申请号: | 201710338278.3 | 申请日: | 2017-05-15 |
公开(公告)号: | CN107133335B | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 谭火彬;林广艳;钱宇祥;张祎琼 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/215;G06F40/279 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;顾炜 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于分词与索引技术的重复记录检测方法,获取待处理记录集,遍历待处理记录集,选取出待分词字段集合,对每一条记录的待分词字段中的字段值进行分词,得到每条记录的分词集合;遍历待处理记录集的同时,根据获得的分词集合,建立并扩充待处理记录集的逆向索引,根据获得的逆向索引,建立并扩充待处理记录集的正向链集合;遍历结束,得到构建完成的逆向索引和正向链集合,获得候选记录对集合;采用记录重复性计算算法,对所有的候选记录对对应的待处理记录是否重复进行计算,最终得到候选记录对是否重复的结果,存储检测结果;若发生增加记录、修改记录、删除记录的增量记录,则对增量记录进行实时处理。 | ||
搜索关键词: | 一种 基于 分词 索引 技术 重复 记录 检测 方法 | ||
【主权项】:
一种基于分词与索引技术的重复记录检测方法,其特征在于步骤如下:步骤1,获取待处理记录集r,从记录集的所有字段中选取待分词的字段集合f;步骤2,遍历待处理记录集,根据步骤1中选取出的待分词字段集合f,对每一条记录的待分词字段中的字段值进行分词,得到每条记录的分词集合w;遍历待处理记录集r同时,根据获得的分词集合w,建立并扩充待处理记录集的逆向索引,根据获得的逆向索引,建立并扩充待处理记录集的正向链集合;遍历结束,得到构建完成的逆向索引和正向链集合,并将得到的逆向索引持久化存储;所述逆向索引结构为wi={r1,r2,,,rm},等号左边为键,等号右边为值,其中键为分词过程中出现过的某一个分词wi,值为包含该分词wi的记录对应的记录索引集合,集合中的rm为待处理记录的索引值;借助逆向索引能够根据某个分词查询到包含该分词的所有待处理记录的索引值rm,根据查询到的索引值rm进而查询到对应的待处理记录;所述正向链集合结构为rj={{r11,r12,,,r1m},,,{rk1,rk2,,,rkm}},其中等号左边为键,等号右边为值,键rj为待处理记录的索引值,值为由集合元素组成的集合,值中集合元素的个数等于通过rj索引到的待处理记录的分词集合wj中的分词数,每个集合元素即为以wi为键的逆向索引的值;步骤3,设置阈值,遍历记录待处理集r,根据步骤2中的正向链集合,获得候选记录对集合,每个候选记录对的结构为{r1,r2},其中r1、r2为待处理记录的索引;步骤4,采用记录重复性计算算法,对所有的候选记录对{r1,r2}对应的待处理记录是否重复进行计算,最终得到候选记录对是否重复的结果,存储检测结果;步骤5,若发生增加记录、修改记录、删除记录的增量记录,则对增量记录进行实时处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710338278.3/,转载请声明来源钻瓜专利网。