[发明专利]数据处理方法及装置、计算机可读存储介质以及电子设备有效
申请号: | 201910843934.4 | 申请日: | 2019-09-06 |
公开(公告)号: | CN110532304B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 王新左;何源;尹泽夏;张钧波;郑宇 | 申请(专利权)人: | 京东城市(北京)数字科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100086 北京市海淀区知*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 计算机 可读 存储 介质 以及 电子设备 | ||
本发明实施例是关于一种数据处理方法及装置、计算机可读存储介质、电子设备,涉及数据处理技术领域,该方法包括:对第一待处理数据进行处理得到多个数据方格,并将第二待处理数据添加至各所述数据方格中得到多个相邻集合;根据各所述相邻集合生成多个正样本以及多个负样本,并根据各所述正样本以及各所述负样本得到多个与所述第一待处理数据对应的第一向量以及与所述第二待处理数据对应的第二向量;根据各所述第一向量以及第二向量之间的相似度,得到所述第一待处理数据以及第二待处理数据之间的相似度。本发明实施例提高了相似度计算的准确率。
技术领域
本发明实施例涉及数据处理技术领域,具体而言,涉及一种数据处理方法、数据处理装置、计算机可读存储介质以及电子设备。
背景技术
随着数据采集技术的不断发展,越来越多的异源数据开始涌现;其中,异源数据可以包括来自于不同数据源的数据。因此,对异源数据的利用和分析逐渐成为企业业务和技术上的关键瓶颈。
在现有的对异源数据进行匹配的方案中,大多数是通过匹配数据库中具有相同字段的数据,计算相似度来进行匹配。
但是,上述方案存在如下缺陷:一方面,异源数据往往难以含有完全相同数值的字段,甚至他们的字段不在同一表示空间,无法计算相似度。另一方面,异源数据的表示形式多样,仅仅通过相同字段来进行匹配难以获得精确的相似度值,使得相似度计算结果的准确度较低。
因此,需要提供一种新的数据处理方法及装置。
需要说明的是,在上述背景技术部分发明的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明的目的在于提供一种数据处理方法、数据处理装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的相似度计算结果的准确度较低的问题。
根据本公开的一个方面,提供一种数据处理方法,包括:
对第一待处理数据进行处理得到多个数据方格,并将第二待处理数据添加至各所述数据方格中得到多个相邻集合;
根据各所述相邻集合生成多个正样本以及多个负样本,并根据各所述正样本以及各所述负样本得到多个与所述第一待处理数据对应的第一向量以及与所述第二待处理数据对应的第二向量;
根据各所述第一向量以及第二向量之间的相似度,得到所述第一待处理数据以及第二待处理数据之间的相似度。
在本公开的一种示例性实施例中,所述第一待处理数据中包括多个第一数据实体,所述第二待处理数据中包括多个第二数据实体;
其中,将第二待处理数据添加至各所述数据方格中得到多个相邻集合包括:
根据所述第二待处理数据中的各所述第二数据实体与所述第一待处理数据中的各所述第一数据实体之间的关联关系,将各所述第二数据实体对应添加至各所述数据方格中得到多个所述相邻集合。
在本公开的一种示例性实施例中,根据各所述相邻集合生成多个正样本以及多个负样本包括:
对各所述相邻集合中的第一数据实体以及第二数据实体进行排序得到多个序列,并将各所述序列作为所述正样本;其中,每一个所述序列中均包括所述第一数据实体以及所述第二数据实体;
在任意两个不同的所述相邻集合中随机抽取多个所述第一数据实体以及多个所述第二数据实体,组成多个所述负样本。
在本公开的一种示例性实施例中,根据各所述正样本以及各所述负样本得到多个与所述第一待处理数据对应的第一向量以及与所述第二待处理数据对应的第二向量包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东城市(北京)数字科技有限公司,未经京东城市(北京)数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910843934.4/2.html,转载请声明来源钻瓜专利网。