[发明专利]一种数据处理方法、装置、设备以及可读存储介质在审

申请号：	202010067327.6	申请日：	2020-01-20
公开（公告）号：	CN113139105A	公开（公告）日：	2021-07-20
发明（设计）人：	林兆祥;祝明成;蔡毅超;冯琛	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/9032	分类号：	G06F16/9032
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	熊永强;杜维
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法装置设备以及可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种数据处理方法、装置、设备以及可读存储介质，本申请属于计算机技术领域，方法包括：对原始数据进行数据采样，得到第一业务数据和第二业务数据；将第一业务数据以及第一业务数据在原始数据中的原始位置序号，确定为第一数据摘要，将第二业务数据以及第二业务数据在原始数据中的原始位置序号，确定为第二数据摘要；获取第一业务数据在第二数据摘要中的摘要位置序号，作为第一融合位置序号，获取第二业务数据在第一数据摘要中的摘要位置序号，作为第二融合位置序号；根据第一融合位置序号和第二融合位置序号，生成用于对原始数据进行数据查询的目标数据摘要。采用本申请，可以提高数据准确度，进而减少估算结果误差。

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、装置、设备以及可读存储介质。

背景技术

对于在大型分布式系统中快速实时估算给定值在数据集合中的排名，与估算数据集合中某一排名的对应的值时，为节省存储空间，可以将数据集合进行处理生成对应的数据摘要，再将给定数据与数据摘要进行匹配，确定其排名或对应数据。

在现有技术中，对于数据集合生成数据摘要的过程，可以将数据集合按数据采样长度进行均匀切割，对切割后得到的多段子数据集合分别进行排序，再将排序后的多段子数据集合组通过多次随机奇偶位取样的方式进行聚合合并，生成数据集合对应的数据摘要。在这个聚合过程中，通过随机取奇数位或偶数位的机制，具有很强的随机性，这会使得生成的数据摘要中的数据准确度不高，进而导致在利用数据摘要进行数据查询时，得到的估算结果与其在原始数据中的真实结果相差很大，即误差大且不稳定。

申请内容

本申请实施例提供一种数据处理方法、装置、设备以及可读存储介质，可以提高数据准确度，进而减少估算结果误差。

本申请实施例一方面提供了一种数据处理方法，包括：

对原始数据进行数据采样，得到第一业务数据和第二业务数据；

将上述第一业务数据以及上述第一业务数据在上述原始数据中的原始位置序号，确定为第一数据摘要，将上述第二业务数据以及上述第二业务数据在上述原始数据中的原始位置序号，确定为第二数据摘要；

获取上述第一业务数据在上述第二数据摘要中的摘要位置序号，作为第一融合位置序号，获取上述第二业务数据在上述第一数据摘要中的摘要位置序号，作为第二融合位置序号；

根据第一融合位置序号和第二融合位置序号，融合上述第一数据摘要与上述第二数据摘要，生成用于对上述原始数据进行数据查询的目标数据摘要。

本申请实施例一方面提供了一种数据处理装置，包括：

数据采样模块，用于对原始数据进行数据采样，得到第一业务数据和第二业务数据；

摘要确定模块，用于将上述第一业务数据以及上述第一业务数据在上述原始数据中的原始位置序号，确定为第一数据摘要，将上述第二业务数据以及上述第二业务数据在上述原始数据中的原始位置序号，确定为第二数据摘要；

序号获取模块，用于获取上述第一业务数据在上述第二数据摘要中的摘要位置序号，作为第一融合位置序号；

上述序号获取模块，还用于获取上述第二业务数据在上述第一数据摘要中的摘要位置序号，作为第二融合位置序号；