[发明专利]基于百分位的统计数据压缩方法和系统有效

专利信息
申请号: 202110626628.2 申请日: 2021-06-04
公开(公告)号: CN113364465B 公开(公告)日: 2022-11-22
发明(设计)人: 周奕庆;蔡晓华 申请(专利权)人: 上海天旦网络科技发展有限公司
主分类号: H03M7/30 分类号: H03M7/30
代理公司: 上海段和段律师事务所 31334 代理人: 李佳俊;郭国中
地址: 200086 上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 百分 统计 数据压缩 方法 系统
【说明书】:

本发明提供了一种基于百分位的统计数据压缩方法和系统,包括:步骤1:判断统计单元数量的上限值,得到总量统计单元;步骤2:根据预设采样率从总量统计单元中筛选出符合预设条件的统计单元;步骤3:对筛选出的符合预设条件的统计单元进行指标百分位数阈值计算;步骤4:根据指标百分数阈值对统计单元进行过滤,过滤并移出所有指标值小于等于指标百分数阈值的统计单元,对过滤后的统计单元向较自身更低的维度进行聚合。本发明提高了处理效率和延长了数据有效长期保存的时间。

技术领域

本发明涉及数据压缩技术领域,具体地,涉及一种基于百分位的统计数据压缩方法和系统。

背景技术

流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合。应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。

在流数据统计过程中,数据被不断输入。在一定维度下,分配的统计单元数量会不断增加,导致内存占用的增加。一般通过限制统计单元数量来控制内存占用。在数量达到上限后,不再为新数据分配新的统计单元。必须等待统计报告周期到达后报告并清空缓存的统计单元,才能继续分配新的统计单元。这其实是一种随机的策略,这样容易造成在时序上出现较晚的重要数据,譬如指标量比较大的统计单元,可能被排除在外未被统计。

另一种控制方式是在达到上限后对所有统计单元做指标TopN排序,将排除在TopN之外的单元进行聚合。聚合就是减少统计中的维度,譬如在监控场景中,原先是按照SourceIp、SourcePort、DestIp、DestPort、IpPotocalByte等五元组的五个维度联合进行统计,聚合后仅仅按照Source Ip和DestIp作为联合维度进行统计,从而大大减少统计单元。这种方法牺牲不重要数据的维度视角的可见性。同时,这种方法这样虽然能够保留指标量较大的统计单元,但在统计单元总量较多的情况下,对全量做TopN会消耗过多的CPU时间,影响统计性能本身,造成输入数据缓存积压,甚至阻塞整个流处理过程。

专利文献CN100385437C(申请号:CN200510115119.4)公开了一种实时数据压缩方法,用于过程控制系统中对数据包数据进行压缩,所述实时数据包括模拟量的数值,该方法包括:1)初始化字典,将压缩过程中可能出现的字符初始化到字典中;2)读入数值;3)将实时数据的相邻数据相减获取差值,在压缩文件中保存读入的第一个数值;4)采用LZW算法对所述差值进行压缩。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种基于百分位的统计数据压缩方法和系统。

根据本发明提供的基于百分位的统计数据压缩方法,包括:

步骤1:判断统计单元数量的上限值,得到总量统计单元;

步骤2:根据预设采样率从总量统计单元中筛选出符合预设条件的统计单元;

步骤3:对筛选出的符合预设条件的统计单元进行指标百分位数阈值计算;

步骤4:根据指标百分数阈值对统计单元进行过滤,过滤并移出所有指标值小于等于指标百分数阈值的统计单元,对过滤后的统计单元向较自身更低的维度进行聚合。

优选的,所述步骤1包括:预定义统计单元数量上限值,当新的输入数据带有新的维度值并且需要分配新的统计单元时,判断当前统计单元数量是否已经达到预定义统计单元数量上限值,若没有达到预定义统计单元数量上限值,则创建新的统计单元;若达到预定义统计单元数量上限值,则触发统计单元数据压缩。

优选的,所述步骤2包括:使用预设采样率乘以uint32最大值,得到采样阈值,遍历当前所有统计单元,计算每一个统计单元的哈希值,当哈希值小于等于采样阈值时选取该统计单元,当哈希值大于采样阈值时忽略该统计单元。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海天旦网络科技发展有限公司,未经上海天旦网络科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110626628.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top