[发明专利]一种用于重复数据删除的抽样选择方法在审
申请号: | 201810419353.3 | 申请日: | 2018-05-04 |
公开(公告)号: | CN108681433A | 公开(公告)日: | 2018-10-19 |
发明(设计)人: | 马廷淮;李婧;梁新年;徐梦茹;杨慧敏;王红妹 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F3/06 | 分类号: | G06F3/06;G06K9/62 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种用于重复数据删除的抽样选择方法,该方法基于Sig‑Dedup框架,得到初始块阈值,进而从大规模数据集中过滤出可能的匹配对放入一个新的集合S,并按相似度递增排序,然后将该集合按相似度等级随机抽取出一定数量的信息对生成经验规模的样本。通过SSAR主动学习算法,对各等级的样本进一步去除不翔实或者冗余的信息对,生成更具代表性的训练集交由专家标记,然后用它确定模糊边界值,紧接着用模糊边界值和已标记集训练支持向量机分类器SVM,自动判定模糊区域内信息对是否匹配,从而减少了需要人工标记的信息对数量。本发明大大细化了抽样选择过程,减小需要手工标记的信息对数量,极大减小专家标记成本。 | ||
搜索关键词: | 重复数据删除 模糊边界 抽样 相似度 减小 样本 集合 支持向量机分类器 大规模数据 标记成本 模糊区域 人工标记 手工标记 选择过程 主动学习 冗余 初始块 匹配对 训练集 放入 算法 细化 去除 排序 匹配 过滤 判定 取出 递增 | ||
【主权项】:
1.一种用于重复数据删除的抽样选择方法,其特征在于,包括以下步骤:步骤一、基于指纹的重复数据删除框架确定初始块阈值TH,将相似度高于该阈值的信息对抽取出来,放入新的数据集S中,最终从初始的大规模数据集中过滤出所有潜在的匹配对形成新数据集S,并将其中信息对按相似度递增排序;步骤二、在新的数据集S中,将相似度以0.1为差值均等划分为十个等级,从十个等级的信息对中随机抽取出信息对生成子集s;步骤三、通过使用关联规则的主动学习算法,对子集s进一步去除不翔实或者冗余的信息对,生成更小规模的数据集进行标记,标记完成后作为训练集;步骤四、根据已标记的训练集确定模糊区域边界区间[α,β],其中α是指非匹配信息对的最高相似度,β指匹配对的最低相似度;步骤五、将模糊边界区间和已标记的训练集作为输入值,训练支持向量机分类器SVM,自动判断数据集S中的信息对是否匹配。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810419353.3/,转载请声明来源钻瓜专利网。