[发明专利]近重复记录的相似度评估方法有效
申请号: | 201510259365.0 | 申请日: | 2015-05-20 |
公开(公告)号: | CN104850624B | 公开(公告)日: | 2018-06-22 |
发明(设计)人: | 兰曼;赵江 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似度 记录层 属性层 相似度评估 重复记录 数据块 迭代停止条件 更新记录 评估记录 使用记录 输出属性 系统框架 初始化 大数据 无监督 迭代 分块 聚类 标注 噪音 输出 灵活 更新 记录 传播 生产 | ||
1.一种近重复记录相似度评估方法,其特征在于,包括如下步骤:
步骤一:对待消重的大数据集进行分块操作,得到许多较小的数据块;
步骤二:针对每个数据块,初始化属性层和记录层的相似度;
步骤三:如果未满足迭代停止条件,则使用记录层相似度去更新属性层的相似度和使用属性层相似度去更新记录层的相似度;
步骤四:输出属性层和记录层的相似度;其中:
所述步骤三中更新属性层相似度和更新记录层的相似度操作包括如下步骤:
步骤a1:检查迭代停止条件,如果满足条件,转到本方法的步骤四,否则继续以下步骤;
步骤a2:查找相似的属性簇并找到相关的记录,将记录间的相似度添加到计算属性层相似度的过程中;
步骤a3:查找相似的记录簇,使用更新的属性相似度和相似记录间的相似度去更新记录间相似度,转到步骤a1;其中:
更新属性层相似度使用如下表达式:
式中,和为第i,j个记录的第k个属性,为传统属性相似度计算方式,为记录层反馈相似度,α∈[0,1]是一个权衡参数,用于决定传统相似度和反馈相似度的相对重要性,的计算如下:
式中,为属性的相似属性集合,为属性的相似属性集合;为第i,j个记录的第k个属性的相似度;
更新记录层相似度使用如下表达式:
s(ri,rj)=βT(ri,rj)+(1-β)G(ri,rj)
式中,T(ri,rj)为传统记录相似度计算方式,G(ri,rj)为相似记录的反馈相似度,β∈[0,1]是一个权衡参数,用于决定传统相似度和反馈相似度的相对重要性,G(ri,rj)的计算方法如下:
式中,N(ri)为记录ri的相似记录集合,N(rj)为记录rj的相似记录集合。
2.如权利要求1所述的近重复记录相似度评估方法,其特征在于,所述步骤一中分块操作包括如下步骤:
步骤b1:评估每个记录中属性字段的重要性,人工设定每个属性的重要性或者使用自动化的方式设定,选取一个或者多个属性作为关键属性;
步骤b2:根据关键属性,使用合并聚类算法对记录进行快速聚类,每一簇的数据划分成为一个数据块。
3.如权利要求1所述的近重复记录相似度评估方法,其特征在于,所述步骤二中初始化操作包括如下步骤:
步骤c1:选择相似度度量函数来计算属性的相似度,如果属性值存在缺失,使用其他属性值的相似度来评估该属性的相似度;
步骤c2:根据上一步计算出来的属性相似度,计算记录间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510259365.0/1.html,转载请声明来源钻瓜专利网。