[发明专利]一种用于重复数据删除的抽样选择方法在审
申请号: | 201810419353.3 | 申请日: | 2018-05-04 |
公开(公告)号: | CN108681433A | 公开(公告)日: | 2018-10-19 |
发明(设计)人: | 马廷淮;李婧;梁新年;徐梦茹;杨慧敏;王红妹 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F3/06 | 分类号: | G06F3/06;G06K9/62 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 重复数据删除 模糊边界 抽样 相似度 减小 样本 集合 支持向量机分类器 大规模数据 标记成本 模糊区域 人工标记 手工标记 选择过程 主动学习 冗余 初始块 匹配对 训练集 放入 算法 细化 去除 排序 匹配 过滤 判定 取出 递增 | ||
1.一种用于重复数据删除的抽样选择方法,其特征在于,包括以下步骤:
步骤一、基于指纹的重复数据删除框架确定初始块阈值TH,将相似度高于该阈值的信息对抽取出来,放入新的数据集S中,最终从初始的大规模数据集中过滤出所有潜在的匹配对形成新数据集S,并将其中信息对按相似度递增排序;
步骤二、在新的数据集S中,将相似度以0.1为差值均等划分为十个等级,从十个等级的信息对中随机抽取出信息对生成子集s;
步骤三、通过使用关联规则的主动学习算法,对子集s进一步去除不翔实或者冗余的信息对,生成更小规模的数据集进行标记,标记完成后作为训练集;
步骤四、根据已标记的训练集确定模糊区域边界区间[α,β],其中α是指非匹配信息对的最高相似度,β指匹配对的最低相似度;
步骤五、将模糊边界区间和已标记的训练集作为输入值,训练支持向量机分类器SVM,自动判断数据集S中的信息对是否匹配。
2.如权利要求1所述的一种用于重复数据删除的抽样选择方法,其特征在于:所述步骤三具体包括:
步骤301、对于子集s,使用关联规则的抽样选择算法从中随机选择若干出未标记对Ui(i=1,2···);
步骤302、对于每个未标记对,分别在已标记数据集中删除Ui中不存在的特征值,生成临时训练集;
步骤303、选取规模最小的临时训练集所对应的未标记对进行标记。
3.如权利要求2所述的一种用于重复数据删除的抽样选择方法,其特征在于:所述步骤四具体包括:
确定数据集S中具有最小相似性的匹配对MTP,以及数据集S中具有最大相似性的不匹配对MFP,MFP和MTP对应的相似度分别为α和β,相似度介于α和β之间的信息对属于模糊区域,若相似度低于α,则标记为非匹配对,若高于β,标记为匹配对。
4.如权利要求3所述的一种用于重复数据删除的抽样选择方法,其特征在于:所述步骤五具体包括:
步骤501、通过相似性函数Jaccatd以及NGram令牌化算法重新计算每个标记对的相似性;
步骤502、标签对按相似度升序排序,并使用固定大小为N的滑动窗口,滑动窗口不断向后移动,直到识别出最后的仅含非匹配对的窗口,由此确定NGram阈值;
步骤503、数据集S中经过了以上的过滤并且达到NGram阈值的被标记为匹配对,其余为非匹配对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810419353.3/1.html,转载请声明来源钻瓜专利网。