[发明专利]数据处理方法及装置有效
申请号: | 201810895106.0 | 申请日: | 2018-08-08 |
公开(公告)号: | CN109189822B | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 杨竞霜 | 申请(专利权)人: | 北京大数据研究院 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 100871 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
本公开涉及数据处理方法及装置,所述方法包括:确定多个待处理数据的标识,根据多个待处理数据的出现时间以及所述统计时间区间内的多个目标时间段,对多个待处理数据进行分组处理,根据所述得到的多个数据组中的待处理数据的标识,获取每个数据组中的待处理数据的标识及第一出现次数,根据待处理数据的标识及所述第一出现次数,获取第一时间窗内的待处理数据的标识及第二出现次数,以目标时间段的时长为单位移动第一时间窗,获取移动后的第一时间窗内的待处理数据的标识及第三出现次数。本公开可以实现各类数据在不同时间窗下的快速统计,获取待处理数据的出现次数。
技术领域
本公开涉及计算机技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着无线技术发展以及终端设备的进步,数据海量化的趋势在各个行业中都展现了出来。在科学研究领域,如天文观测数据、气象数据、海洋监测数据等,随着传感器网络的成熟,这些数据的收集变得容易,导致日志信息的爆炸式增长;另外,在决策领域,如证券交易市场中每天的交易数据、企业相关报道、微博数据等也在蓬勃发展。
随着数据的规模越来越大,如何处理海量化数据成了当前研究的一大课题。
发明内容
根据本公开的一方面,提供了一种数据处理方法,所述方法包括:
对统计时间区间内接收到的多个待处理数据进行预处理,确定所述多个待处理数据的标识,所述标识用于确定待处理数据的类别和/或来源;
根据所述多个待处理数据的出现时间以及所述统计时间区间内的多个目标时间段,对所述多个待处理数据进行分组处理,获取多个数据组;
根据所述多个数据组中的待处理数据的标识及第一出现次数,获取每个数据组中的待处理数据的标识及第一出现次数,所述第一出现次数为待处理数据的标识在每个数据组中的出现次数;
根据所述多个数据组、所述多个数据组中待处理数据的标识及所述第一出现次数,获取第一时间窗内的待处理数据的标识及第二出现次数,所述第二出现次数为所述第一时间窗内的待处理数据的标识在所述第一时间窗内的出现次数;及
以所述目标时间段的时长为单位移动所述第一时间窗,获取移动后的第一时间窗内的待处理数据的标识及第三出现次数,所述第三出现次数为所述移动后的第一时间窗内的待处理数据的标识在所述移动后的第一时间窗内的出现次数。
在一种可能的实施方式中,对统计时间区间内接收到的多个待处理数据进行预处理,确定所述多个待处理数据的标识,包括:
将所述多个待处理数据的类别或来源的信息转化为所述标识,所述标识为0-K的整数标识。
在一种可能的实施方式中,所述第一时间窗的长度为所述目标时间段的时长的M倍,M为大于2的整数。
在一种可能的实施方式中,所述多个数据组为N个,其中,所述目标时间段的时长小于所述统计时间区间的时长,N为所述统计时间区间的时长与所述目标时间段的时长的比值。
在一种可能的实施方式中,所述方法还包括:
根据多个所述第一时间窗内的待处理数据的标识及对应待处理数据的第二出现次数和/或所述移动后的第一时间窗的待处理数据的标识及对应待处理数据的第三出现次数获取第二时间窗内的待处理数据的标识及对应待处理数据的第四出现次数,其中,所述第二时间窗的长度大于所述第一时间窗的长度。
在一种可能的实施方式中,所述方法还包括:
根据所述第一时间窗和/或所述第二时间窗内的待处理数据的标识、对应待处理数据的第四出现次数获取第三时间窗内的待处理数据的标识及对应待处理数据的第五出现次数,其中,所述第三时间窗的长度大于所述第二时间窗的长度。
根据本公开的另一方面,提供了一种数据处理装置,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大数据研究院,未经北京大数据研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810895106.0/2.html,转载请声明来源钻瓜专利网。