[发明专利]基于百分位的统计数据压缩方法和系统有效
申请号: | 202110626628.2 | 申请日: | 2021-06-04 |
公开(公告)号: | CN113364465B | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 周奕庆;蔡晓华 | 申请(专利权)人: | 上海天旦网络科技发展有限公司 |
主分类号: | H03M7/30 | 分类号: | H03M7/30 |
代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
地址: | 200086 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 百分 统计 数据压缩 方法 系统 | ||
本发明提供了一种基于百分位的统计数据压缩方法和系统,包括:步骤1:判断统计单元数量的上限值,得到总量统计单元;步骤2:根据预设采样率从总量统计单元中筛选出符合预设条件的统计单元;步骤3:对筛选出的符合预设条件的统计单元进行指标百分位数阈值计算;步骤4:根据指标百分数阈值对统计单元进行过滤,过滤并移出所有指标值小于等于指标百分数阈值的统计单元,对过滤后的统计单元向较自身更低的维度进行聚合。本发明提高了处理效率和延长了数据有效长期保存的时间。
技术领域
本发明涉及数据压缩技术领域,具体地,涉及一种基于百分位的统计数据压缩方法和系统。
背景技术
流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合。应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。
在流数据统计过程中,数据被不断输入。在一定维度下,分配的统计单元数量会不断增加,导致内存占用的增加。一般通过限制统计单元数量来控制内存占用。在数量达到上限后,不再为新数据分配新的统计单元。必须等待统计报告周期到达后报告并清空缓存的统计单元,才能继续分配新的统计单元。这其实是一种随机的策略,这样容易造成在时序上出现较晚的重要数据,譬如指标量比较大的统计单元,可能被排除在外未被统计。
另一种控制方式是在达到上限后对所有统计单元做指标TopN排序,将排除在TopN之外的单元进行聚合。聚合就是减少统计中的维度,譬如在监控场景中,原先是按照SourceIp、SourcePort、DestIp、DestPort、IpPotocalByte等五元组的五个维度联合进行统计,聚合后仅仅按照Source Ip和DestIp作为联合维度进行统计,从而大大减少统计单元。这种方法牺牲不重要数据的维度视角的可见性。同时,这种方法这样虽然能够保留指标量较大的统计单元,但在统计单元总量较多的情况下,对全量做TopN会消耗过多的CPU时间,影响统计性能本身,造成输入数据缓存积压,甚至阻塞整个流处理过程。
专利文献CN100385437C(申请号:CN200510115119.4)公开了一种实时数据压缩方法,用于过程控制系统中对数据包数据进行压缩,所述实时数据包括模拟量的数值,该方法包括:1)初始化字典,将压缩过程中可能出现的字符初始化到字典中;2)读入数值;3)将实时数据的相邻数据相减获取差值,在压缩文件中保存读入的第一个数值;4)采用LZW算法对所述差值进行压缩。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于百分位的统计数据压缩方法和系统。
根据本发明提供的基于百分位的统计数据压缩方法,包括:
步骤1:判断统计单元数量的上限值,得到总量统计单元;
步骤2:根据预设采样率从总量统计单元中筛选出符合预设条件的统计单元;
步骤3:对筛选出的符合预设条件的统计单元进行指标百分位数阈值计算;
步骤4:根据指标百分数阈值对统计单元进行过滤,过滤并移出所有指标值小于等于指标百分数阈值的统计单元,对过滤后的统计单元向较自身更低的维度进行聚合。
优选的,所述步骤1包括:预定义统计单元数量上限值,当新的输入数据带有新的维度值并且需要分配新的统计单元时,判断当前统计单元数量是否已经达到预定义统计单元数量上限值,若没有达到预定义统计单元数量上限值,则创建新的统计单元;若达到预定义统计单元数量上限值,则触发统计单元数据压缩。
优选的,所述步骤2包括:使用预设采样率乘以uint32最大值,得到采样阈值,遍历当前所有统计单元,计算每一个统计单元的哈希值,当哈希值小于等于采样阈值时选取该统计单元,当哈希值大于采样阈值时忽略该统计单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海天旦网络科技发展有限公司,未经上海天旦网络科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110626628.2/2.html,转载请声明来源钻瓜专利网。