[发明专利]一种方差优化直方图的构建方法和装置有效
申请号: | 201710428418.6 | 申请日: | 2017-06-08 |
公开(公告)号: | CN107391560B | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 史亮;王勇;张鸿 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/901 | 分类号: | G06F16/901 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 方差 优化 直方图 构建 方法 装置 | ||
本发明提供了一种方差优化直方图的构建方法和装置,该方法按内存大小和查询精度设定样本数目K和直方图桶的个数B,有新元素出现时,为使样本数目保持在K,以在线数据采样方法优化内存空间的数据样本;根据优化的内存空间数据样本,动态构建方差优化直方图;该装置包括优化单元和构建单元。本发明提供的技术方案降低了数据规模与分布特征的影响,能有效减少数据倾斜或数据分布的不均匀带来的区间检索误差。
技术领域
本发明涉及大数据计算领域,具体讲涉及一种方差优化直方图的构建方法和装置。
背景技术
大数据时代以海量、高速为特点的流数据成为热门研究方向,同时实时处理和分析流数据的应用需求也呈爆炸式增长。例如,2015年天猫“双十一”峰值交易值达到了8.59万笔/秒,是2014年“双十一”峰值3.85万笔/秒的2.23倍,蚂蚁花呗在开售1分钟成功交易的订单总量达到了52万笔,飞行状态下的波音737的引擎每小时产生近20TB的数据,又如网络监测、网络流量分析、事务日志分析和股票行情、交易等,越来越多的应用需要对高速海量的流式数据进行高精度的实时分析。
作为大规模流数据计算的常用模型之一的数据概要结构,其可以通过单遍扫描数据,在远小于数据规模的内存空间里不断更新压缩数据,利用概要技术提取所有数据的概要信息,并快速获得数据的分布特征。典型的概要技术包括直方图法、小波法和抽样法等。
采用直方图表示的概要技术方法既可直观、简洁的描述大数据集的分布特征,又可以快速返回近似聚合计算结果,同时还可以极大的减少网络传输的数据量。按照直方图桶边界划分方法将直方图分为等宽直方图、等深直方图、压缩直方图、方差优化直方图等。在大规模数据的聚合计算中,方差优化直方图在构造过程中各桶的方差和最小,相较于其他直方图而言,聚合查询的结果更加精准。
传统方差优化直方图是采用动态规划算法对离线数据构建的直方图,需要O(B·n2)时间复杂度,其中n为当前数据的总数,B为直方图桶的总数。现有技术中,在流数据环境下构建方差优化直方图时,需要的时间复杂度为O(n·(B/∈)2logn),每写入一个新元素的复杂度为O((B/∈)logn),其适用于有序流数据,且受限于内存空间,只能对指定时间窗口内的数据进行构建。
现有技术中的动态调整的近似方差优化直方图法,每将出现的一个新元素插入于对应的桶中,再对桶分裂或合并使得直方图整体的方差之和近似最优,该方法大大降底了构建时间复杂度,但在对待分裂桶和待合并桶进行方差计算前需要保存所有的原始数据,因此不利于在流式大数据环境下动态构建方差优化直方图;
现有技术中用样本数据构建方差优化直方图的方法中构建的前提是知晓数据的分布,继而对连续出现的流数据进行随机采样,但不足之处是数据分析精确度较低。
综上所述,为满足大数据时代对流数据的高精度分析需求,需要提供一种新的快速构建方差优化直方图的方法。
发明内容
为满足现有技术发展的需要,本发明提供了一种流数据环境下方差优化直方图的构建方法。
本发明提供的方差优化直方图构建方法,所述方法包括:
按内存大小和查询精度设定样本数目K和直方图桶的个数B,有新元素出现时,对新出现的元素进行预处理,同时为使样本数目保持在K,以在线数据采样方法优化内存空间的数据样本;根据优化的内存空间数据样本,动态构建方差优化直方图。
进一步的,所述新元素为K+1个元素,对所述K+1个新元素进行方差优化处理时,按下式计算最小采样代价Cost:
式中,wi和wj:分别表示样本i、j的值,且wi+wjτ且ij;wm:表示样本m的值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710428418.6/2.html,转载请声明来源钻瓜专利网。