[发明专利]一种大数据场景下的数据分割方法在审
申请号: | 202210132296.7 | 申请日: | 2022-02-14 |
公开(公告)号: | CN114491157A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 贺广福;薛源海;陈翠婷;俞晓明;刘悦;沈华伟;程学旗 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F16/90 | 分类号: | G06F16/90;G06F16/901;G06F16/903 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 场景 分割 方法 | ||
本发明实施例提供了一种大数据场景下的数据分割方法,包括:获取探测区间,确定待分割的数据集合中属于探测区间内的区内数据条数;在区内数据条数不处于预定的容忍范围内时,对探测区间的右端点进行一次或者多次指数型调整直至得到使得区内数据条数处于容忍范围内的右端点或者越过容忍范围;在指数型调整导致区内数据条数越过容忍范围时,以当前的探测区间的右端点以及前一个探测区间的右端点构成的区间为查找范围,通过二分查找法确定使得区内数据条数处于容忍范围内的右端点;根据探测区间的左端点以及使得区内数据条数处于容忍范围内的右端点确定的分割区间对数据集合进行分割。
技术领域
本发明涉及大数据处理领域,具体来说涉及数据集分割技术领域,更具体地说,涉及一种大数据场景下的数据分割方法。
背景技术
大数据场景中,通常涉及到对数据集进行分割以避免单次处理的数据条数过多或者过少而影响处理性能。
数据分析和处理服务可以对提交的数据进行数据分析和处理,由于算法效率,计算机资源问题,往往对一次提交的数据量有一定的约束。在大数据处理时,很多场景下由于业务场景的不同,数据分布具有很强的随机性,导致维度内的数据量大概率出现极少或者极多的情况,影响数据处理服务的吞吐量和服务的稳定性。如果一次处理的数据块过大,会造成服务系统压力过大,响应时间过长,甚至可能处理失败;如果一次处理的数据块过小,会造成请求的次数增多,降低服务系统在单位时间内的吞吐量。
假设数据处理服务系统的预期处理能力为n条/秒,而请求的数据也是n条,则数据处理服务系统的吞吐量能达到理论上的最大值。所以,将随机分布数据切分为近似均匀的数据块对系统的负载和可预测性具有很大意义。但是,在大数据场景下,从待处理数据中,将数据集合快速切分为均匀的数据块具有较大的挑战性,原因在于:
(1)真实的业务系统在单位时间接收的数据条数相对随机,甚至会有较大的波动,造成了数据集合在时间上的分布不均匀。例如,在闲时,可能出现若干单位时间内,业务系统收到的数据很少,甚至可能没有数据;在高峰时间,业务系统高负载,接收大量数据,比如10000条/s,或者更多;
(2)大数据场景中,形成完整的全局数据分布视图具有较高的时间复杂度和空间复杂度,代价较大。
现有技术对数据集合进行分割的方法如下:
现有方法1:将数据集分割为预定大小的数据块,其中每个数据块拥有预定的数据条数。此方案为理想情况,但是,实际情况往往很难达到这一点。如果通过遍历数据的方式获取n条数据,那么时间复杂度就是O(n)。处理过程中,涉及到所有数据的读入、处理和分块,往往会比较费时。而且如果在不改变原始数据的前提下,使用此方案,会有深度翻页的问题,随着数据的处理条数不断增多,当需要处理第m块n条数据时,需要先跳过前n*(m-1)条数据,然后再去除n条数据,此时的时间复杂则退化为O(n^2)。
现有方法2:使用数据中属性p的索引,可以快速确定p的取值为某一确定范围的数据条数,从而可以使用属性p的范围来快速分割数据。通过使用索引,可以使用类似折半查找的方式来探测数据范围区间。探测p∈[a,b],如果该区间数据条数小于n,且p∈[a,2b]数据条数大于n,那么认为p∈[a,b]为该数据集的一个合理的分割。该方法可以以O(log n)的时间复杂度,确定范围内的数据条数与n之间的大小关系。相比上一种方法,该方法使用额外的属性索引数据,具有更好的时间复杂度。但是该方法也有比较明显的缺点,首先是,此方法严重依赖数据在属性维度的分布,可能会出现单个属性的一个取值上,数据量超过服务处理能力的情况;其次,该方法分割的数据范围相对粗糙,无法逼近服务处理能力n,例如p在[a,b]区间内数据条数很少,而在[a,2b]或者[a/2,b]数据条数很多,造成最终的数据分割结果与期望条数的偏离值较大,无法达到理论的服务吞吐量。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种大数据场景下的数据分割方法。
本发明的目的是通过以下技术方案实现的:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210132296.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:GOA电路及显示面板
- 下一篇:一种用户自定义后台任务创建方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置