[发明专利]数据匹配方法及装置、存储介质、终端在审
申请号: | 201910464307.X | 申请日: | 2019-05-30 |
公开(公告)号: | CN110321347A | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 汤奇峰;李青山 | 申请(专利权)人: | 上海数据交易中心有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张振军;吴敏 |
地址: | 200436 上海市静*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 哈希桶 数据匹配 查询 查询数据 源数据 存储介质 哈希运算 终端 匹配结果 供方 | ||
一种数据匹配方法及装置、存储介质、终端,数据匹配方法包括:对数据供方所提供的源数据进行哈希运算,以得到多个源哈希桶,每个源哈希桶具备序号,每个源哈希桶包括多个源数据;对数据需方的查询数据进行哈希运算,以得到多个查询哈希桶,每个查询哈希桶具备序号,每个查询哈希桶包括多个查询数据;分别将各个查询哈希桶内的查询数据与查询哈希桶对应的源哈希桶内的源数据进行数据匹配,以得到匹配结果,其中,所述查询哈希桶的序号与其对应的源哈希桶的序号之间具备对应关系。本发明技术方案能够提升数据匹配的效率。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据匹配方法及装置、存储介质、终端。
背景技术
在数据交易和数据流通过程中,数据交易平台通常需要对数据需方所需数据和数据供方所提供的数据之间进行数据匹配。具体地,有典型的两种场景需要进行数据匹配:一种场景为数据需方将希望查询的数据标识(Identity,ID)发送给数据供方前置机,数据供方前置机收到ID文件后与自己的存量ID进行数据匹配;另一种场景为数据需方向数据供方发送查询请求,数据供方根据需方请求返回指定条数的数据记录,数据需方前置机收到数据供方返回的数据后与自己的存量ID进行数据匹配。
这两种场景下数据匹配都发生在数据供方或数据需方的前置机上,该前置机通常为一个单机环境。
但是,在单机环境下进行数据匹配时,由于需要进行数据的全量匹配,数据匹配效率低;并且,现有的数据匹配依赖关系数据库,关系数据库存储上限约为十几万张表数亿条记录,当数据量达到或者接近该存储上限时,关系数据库的读写速度会显著下降,除了开源的MYSQL以外,Oracle等商业数据库还有成本高,使用困难等缺点,使用关系数据库执行数据匹配的性能低下。
发明内容
本发明解决的技术问题是如何提升数据匹配的效率。
为解决上述技术问题,本发明实施例提供一种数据匹配方法,数据匹配方法包括:对数据供方所提供的源数据进行哈希运算,以得到多个源哈希桶,每个源哈希桶具备序号,每个源哈希桶包括多个源数据;对数据需方的查询数据进行哈希运算,以得到多个查询哈希桶,每个查询哈希桶具备序号,每个查询哈希桶包括多个查询数据;分别将各个查询哈希桶内的查询数据与查询哈希桶对应的源哈希桶内的源数据进行数据匹配,以得到匹配结果,其中,所述查询哈希桶的序号与其对应的源哈希桶的序号之间具备对应关系。
可选的,所述分别将各个查询哈希桶内的查询数据与查询哈希桶对应的源哈希桶内的源数据进行数据匹配包括:分别将各个查询哈希桶内的查询数据与查询哈希桶对应的源哈希桶内的源数据进行数据匹配,以得到多个桶匹配结果;将所述多个桶匹配结果进行合并,以得到所述匹配结果。
可选的,所述分别将各个查询哈希桶内的查询数据与查询哈希桶对应的源哈希桶内的源数据进行数据匹配包括:采用多个进程分别将各个查询哈希桶内的查询数据与查询哈希桶对应的源哈希桶内的源数据进行数据匹配。
可选的,所述对数据供方所提供的源数据进行哈希运算之前还包括:接收来自所述数据供方的源数据;所述对数据需方的查询数据进行哈希运算包括:从所述数据需方的服务器获取所述查询数据,并对所述查询数据进行哈希运算。
可选的,所述对数据供方所提供的源数据进行哈希运算之前还包括:接收来自所述数据需方的查询数据;所述对数据供方所提供的源数据进行哈希运算包括:从所述数据供方的服务器获取所述源数据,并对所述源数据进行哈希运算。
可选的,所述多个源哈希桶的数量与所述多个查询哈希桶的数量相同。
可选的,所述数据匹配方法还包括:对所述匹配结果进行统计分析,以得到各个查询哈希桶内的查询数据与其对应的源哈希桶内的源数据的匹配分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海数据交易中心有限公司,未经上海数据交易中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910464307.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种字符串散列表实现方法和系统
- 下一篇:一种数据处理方法、装置及计算机设备