[发明专利]一种多方记录链接方法、电子设备、存储介质及系统在审
申请号: | 201810587775.1 | 申请日: | 2018-06-08 |
公开(公告)号: | CN109002466A | 公开(公告)日: | 2018-12-14 |
发明(设计)人: | 尚凌辉;陈鑫;叶淑阳 | 申请(专利权)人: | 浙江捷尚人工智能研究发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙) 44288 | 代理人: | 胡拥军;糜婧 |
地址: | 310000 浙江省杭州市余杭区五常*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似度 记录 候选匹配 链接 存储介质 电子设备 匹配成功 容错性 数据源 匹配 数据预处理 相似度计算 标识记录 分块处理 可扩展性 链接系统 位置检查 有效计算 质量问题 利率 参与方 查全率 查准率 阈值时 近似 隐私 转换 失败 全局 | ||
本发明提供一种多方记录链接方法,包括步骤:数据预处理,对若干参与方的数据源分别进行分块处理,将数据源中的记录转换为位数组;记录近似匹配,计算位数组对应位置比特1所占的比率,利率达到动态阈值时,确定利率对应位置为候选匹配位置;相似度计算,计算候选匹配位置之间的相似度,判断相似度是否达到全局阈值,是则匹配成功,否则匹配失败。本发明还涉及电子设备、存储介质、多方记录链接系统;本发明采用比率来标识记录间在某位置的相似度,提高了容错性;采用动态阈值及候选匹配位置检查确定匹配成功位置,查全率和查准率高;能够有效计算有质量问题的记录间的相似度;本发明实现了多方记录链接,能够有效保护隐私,可扩展性和容错性好。
技术领域
本发明涉及记录链接技术领域,尤其涉及一种多方记录链接方法、电子设备、存储介质及系统。
背景技术
随着科技的不断进步,数据正快速地增长和累积,大数据时代已经到来。如何组织和分析这些数据,是发挥数据价值的关键所在。但现有的记录链接方法在记录信息涉及到个人隐私或敏感信息时,未考虑记录信息的隐私保护问题。现有的记录链接方法都只适用于两个数据源,而现实中的很多应用进行记录链接的数据源往往不只两个。随着数据量的不断增长和现实世界数据质量问题的存在,如拼写错误、顺序颠倒等,现有的记录链接方法的可扩展性和容错性较差,因此,急需一种隐私保护性好、可扩展性和容错性高的多方数据源记录链接方法。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种多方记录链接方法,解决了现有记录链接方法无法保护隐私、不适用于多方数据源、可扩展性和容错性较差的问题。
本发明提供一种多方记录链接方法,包括以下步骤:
数据预处理,对若干参与方的数据源分别进行分块处理,将所述数据源中的记录转换为位数组;
记录近似匹配,计算所述位数组对应位置比特1所占的比率,所述利率达到动态阈值时,确定所述利率对应位置为候选匹配位置;
相似度计算,计算所述候选匹配位置之间的相似度,判断所述相似度是否达到全局阈值,是则匹配成功,否则匹配失败。
进一步地,所述步骤数据预处理具体为采用布隆过滤器将所述数据源中的记录转换为位数组。
进一步地,所述步骤数据预处理还包括将所述位数组均分为若干片段,将所述片段分别传至对应参与方。
进一步地,还包括步骤检查候选匹配位置,查找所述候选匹配位置中比特0位置对应的记录,获得第一记录,判断所述第一记录数量是否达到检测阈值,是则判定记录不匹配;否则查找与比特0最近的比特1位置对应的记录,获得第二记录,计算所述第一记录与所述第二记录之间的相似度,若相似度大于所述全局阈值,则判定所述候选匹配位置为匹配成功位置。
一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行上述一种多方记录链接方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述一种多方记录链接方法。
一种多方记录链接系统,包括:
数据预处理模块:用于对若干参与方的数据源分别进行分块处理,将所述数据源中的记录转换为位数组;
记录近似匹配模块:用于计算所述位数组对应位置比特1所占的比率,所述利率达到动态阈值时,确定所述利率对应位置为候选匹配位置;
相似度计算模块:用于计算所述候选匹配位置之间的相似度,若所述相似度达到全局阈值,则匹配成功。
进一步地,所述数据预处理模块具体为采用布隆过滤器将所述数据源中的记录转换为位数组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江捷尚人工智能研究发展有限公司,未经浙江捷尚人工智能研究发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810587775.1/2.html,转载请声明来源钻瓜专利网。