[发明专利]样本匹配度计算优化方法、设备、介质及计算机程序产品在审
申请号: | 202110621677.7 | 申请日: | 2021-06-03 |
公开(公告)号: | CN113361595A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 吴玙;范涛;马国强;魏文斌;谭明超;陈天健;杨强 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q40/00 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 张莉 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 匹配 计算 优化 方法 设备 介质 计算机 程序 产品 | ||
1.一种样本匹配度计算优化方法,其特征在于,所述样本匹配度计算优化方法应用于第一设备,所述样本匹配度计算优化方法包括:
获取各第一本地样本ID,并将各所述第一本地样本ID对应的第一哈希值映射至预设取值区间,获得各所述第一本地样本ID对应的第一哈希映射值;
在各所述第一哈希映射值中选取第一采样哈希映射值集合,并接收各第二设备发送的第二采样哈希映射值集合,其中,所述第二采样哈希映射值集合由所述第二设备在各第二本地样本ID对应的第二哈希映射值中选取;
基于所述第一采样哈希映射值集合对应的第一采样数量和各所述第二采样哈希映射值集合对应的第二采样数量,确定各所述第二设备对应的全局采样排序值,并在所述第一采样哈希映射值集合和各所述第二采样哈希映射值集合中选取各所述全局采样排序值对应的全局采样哈希映射值;
基于各所述全局采样排序值和各所述全局采样哈希映射值,分别计算所述第一设备与各所述第二设备之间的样本匹配度。
2.如权利要求1所述样本匹配度计算优化方法,其特征在于,所述基于各所述全局采样排序值和各所述全局采样哈希映射值,分别计算所述第一设备与各所述第二设备之间的样本匹配度的步骤包括:
基于各所述全局采样排序值和各所述全局采样哈希映射值,分别估算所述第一设备与各所述第二设备之间的并集样本数量;
基于各所述第一本地样本ID对应的第一样本集合数量、各所述第二设备发送的各第二本地样本ID对应的第二样本集合数量和各所述并集样本数量,分别计算所述第一设备与各所述第二设备之间的交集样本数量;
基于各所述交集样本数量,计算所述第一设备与各所述第二设备之间的样本匹配度。
3.如权利要求1所述样本匹配度计算优化方法,其特征在于,所述在所述第一采样哈希映射值集合和各所述第二采样哈希映射值集合中选取各所述全局采样排序值对应的全局采样哈希映射值的步骤包括:
将所述第一采样哈希映射值集合分别与各所述第二采样哈希映射值集合进行聚合,获得各聚合结果;
在各所述聚合结果中分别选取大小排序的排序名次为各所述全局采样排序值的哈希映射值作为各所述全局采样哈希映射值。
4.如权利要求1所述样本匹配度计算优化方法,其特征在于,所述将各所述第一本地样本ID对应的第一哈希值映射至预设取值区间,获得各所述第一本地样本ID对应的第一哈希映射值的步骤包括:
分别对各所述第一本地样本ID进行哈希处理,获得各所述第一哈希值;
将各所述第一哈希值映射为所述预设取值区间内的浮点数,获得各所述第一哈希映射值。
5.如权利要求1所述样本匹配度计算优化方法,其特征在于,所述在各所述第一哈希映射值中选取第一采样哈希映射值集合的步骤包括:
对各所述第一哈希映射值进行排序,获得本地排序结果;
基于所述本地排序结果,在各所述第一哈希映射值中选取排序靠后的第一采样数量的哈希映射值作为所述第一采样哈希映射值集合。
6.如权利要求1所述样本匹配度计算优化方法,其特征在于,在所述基于各所述全局采样排序值和各所述全局采样哈希映射值,分别计算所述第一设备与各所述第二设备之间的样本匹配度的步骤之后,所述样本匹配度计算优化方法还包括:
基于各所述样本匹配度,在各所述第二设备中剔除样本匹配度低于预设匹配度阈值的低匹配度设备,获得各高匹配度设备;
与各所述高匹配度设备进行样本对齐,获得样本对齐结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110621677.7/1.html,转载请声明来源钻瓜专利网。