[发明专利]近重复记录的相似度评估方法有效

专利信息
申请号: 201510259365.0 申请日: 2015-05-20
公开(公告)号: CN104850624B 公开(公告)日: 2018-06-22
发明(设计)人: 兰曼;赵江 申请(专利权)人: 华东师范大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海蓝迪专利商标事务所(普通合伙) 31215 代理人: 徐筱梅;张翔
地址: 200241 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种近重复记录相似度评估方法,该方法包括:步骤一:对待消重的大数据集进行分块操作,得到许多较小的数据块;步骤二:针对每个数据块,初始化属性层和记录层的相似度;步骤三:如果未满足迭代停止条件,则使用记录层相似度去更新属性层相似度和使用属性层相似度去更新记录层的相似度;步骤四:输出属性层和记录层的相似度。本发明采用了迭代地在属性和记录层传播相似度,从而克服了现实生产中记录存在缺失值和噪音值的问题,更准确地评估记录间的相似度。本发明还是一个无监督的方法,克服了需要标注数据带来的成本,并且其输出还可以灵活地集成到一些现存的基于聚类的或者基于距离的消重系统框架中。
搜索关键词: 相似度 记录层 属性层 相似度评估 重复记录 数据块 迭代停止条件 更新记录 评估记录 使用记录 输出属性 系统框架 初始化 大数据 无监督 迭代 分块 聚类 标注 噪音 输出 灵活 更新 记录 传播 生产
【主权项】:
1.一种近重复记录相似度评估方法,其特征在于,包括如下步骤:步骤一:对待消重的大数据集进行分块操作,得到许多较小的数据块;步骤二:针对每个数据块,初始化属性层和记录层的相似度;步骤三:如果未满足迭代停止条件,则使用记录层相似度去更新属性层的相似度和使用属性层相似度去更新记录层的相似度;步骤四:输出属性层和记录层的相似度;其中:所述步骤三中更新属性层相似度和更新记录层的相似度操作包括如下步骤:步骤a1:检查迭代停止条件,如果满足条件,转到本方法的步骤四,否则继续以下步骤;步骤a2:查找相似的属性簇并找到相关的记录,将记录间的相似度添加到计算属性层相似度的过程中;步骤a3:查找相似的记录簇,使用更新的属性相似度和相似记录间的相似度去更新记录间相似度,转到步骤a1;其中:更新属性层相似度使用如下表达式:式中,为第i,j个记录的第k个属性,为传统属性相似度计算方式,为记录层反馈相似度,α∈[0,1]是一个权衡参数,用于决定传统相似度和反馈相似度的相对重要性,的计算如下:式中,为属性的相似属性集合,为属性的相似属性集合;为第i,j个记录的第k个属性的相似度;更新记录层相似度使用如下表达式:s(ri,rj)=βT(ri,rj)+(1‑β)G(ri,rj)式中,T(ri,rj)为传统记录相似度计算方式,G(ri,rj)为相似记录的反馈相似度,β∈[0,1]是一个权衡参数,用于决定传统相似度和反馈相似度的相对重要性,G(ri,rj)的计算方法如下:式中,N(ri)为记录ri的相似记录集合,N(rj)为记录rj的相似记录集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510259365.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top