[发明专利]一种方差优化直方图的构建方法和装置有效
申请号: | 201710428418.6 | 申请日: | 2017-06-08 |
公开(公告)号: | CN107391560B | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 史亮;王勇;张鸿 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/901 | 分类号: | G06F16/901 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 方差 优化 直方图 构建 方法 装置 | ||
1.一种流数据处理方法,包括:
输入流数据;
利用方差优化直方图提取所述流数据的概要信息;
构建所述方差优化直方图的步骤包括:
按内存大小和查询精度设定样本数目K和直方图桶的个数B,有新元素出现时,对新出现的元素进行预处理,同时为使样本数目保持在K,以在线数据采样方法优化内存空间的数据样本;根据优化的内存空间数据样本,动态构建方差优化直方图;
对所述新出现的元素进行预处理包括:
1)若该新元素的值小于当前抽样阈值τ,则将该元素的值累加到Lsum,同时将Lcount的值加1;
2)当新元素大于当前抽样阈值τ时,将该新元素存储到小顶堆H中:若小顶堆H中元素数目达到限定的最大数据样本数目K,或小顶堆H中的最小元素小于当前抽样阈值τ,则将小顶堆H中最小元素的值累加到Lsum中,同时将Lcount的值加1,并删除小顶堆H中的最小元素,调整小顶堆H的结构;
将抽样阈值τ更新为τ=Lsum′/Lcount′,其中,Lsum′:添加元素值后的样本;Lcount′:添加新元素后的样本数据个数;
其中,Lsum为累计值,Lcount为数据样本个数,所述小顶堆H的最大值为K,所述抽样阈值τ、累计值Lsum,数据样本个数Lcount的初始数据都为0;
所述动态构建方差优化直方图包括:
按序平均将K个样本数据存储在直方图的B个桶中,且计算直方图每个桶中数据的方差;
将存储样本的起始角标和结束角标作为桶的边界,记录桶中元素的方差,记录桶中元素的平均值和指向下一个桶的指针;
按桶的分裂合并代价,确定是否进行桶的分裂合并,使得所有桶的方差和最小;
按下式计算所述分裂合并代价Δε:
式中,j:待合并的两个桶中所有的元素;待合并的两个桶中元素的平均值;i:待分裂的桶中所有元素;待分裂的桶中元素的平均值;εM和εS:分别表示待合并桶和待分裂桶中元素的方差;
当所述分裂合并代价Δε<0时将待合并的两个桶合并,将待分裂的桶分裂为两个等宽的桶,并同时更新合并和分裂后桶的边界、方差及指向下一个桶的指针;
反之,不分裂合并。
2.如权利要求1所述的方法,其特征在于,所述新元素为K+1个元素,对所述K+1个新元素进行方差优化处理时,按下式计算最小采样代价Cost:
式中,wi和wj:分别表示样本i、j的值,且wi+wj<τ且i<j;wm:表示样本m的值;
若wi<wj,则将wi累加到wj上,同时删除样本i;
若wi>wj,则将wj累加到wi上,同时删除样本j。
3.如权利要求1所述的方法,其特征在于,所述新元素为K+1个元素,对所述K+1个元素进行方差优化处理时,按下述方法选取满足min(wi+wj)的两个相邻样本i,j:
若wi<wj,则将wi累加到wj上,同时删除样本i;
若wi>wj,则将wj累加到wi上,同时删除样本j。
4.如权利要求1所述的方法,其特征在于,所述待分裂桶包括当前方差最大的桶;所述待合并的两个桶包括当前方差最小的桶及其相邻的方差较小的一个桶。
5.一种流数据处理装置,包括:
输入流数据的单元;
利用方差优化直方图提取所述流数据的概要信息的单元;
构建所述方差优化直方图包括:
优化单元,按内存大小和查询精度设定样本数目K和直方图桶的个数B,有新元素出现时,对新出现的元素进行预处理,同时为使样本数目保持在K,以在线数据采样方法优化内存空间的数据样本;
构建单元,根据优化的内存空间数据样本,动态构建方差优化直方图;
对所述新出现的元素进行预处理包括:
1)若该新元素的值小于当前抽样阈值τ,则将该元素的值累加到Lsum,同时将Lcount的值加1;
2)当新元素大于当前抽样阈值τ时,将该新元素存储到小顶堆H中:若小顶堆H中元素数目达到限定的最大数据样本数目K,或小顶堆H中的最小元素小于当前抽样阈值τ,则将小顶堆H中最小元素的值累加到Lsum中,同时将Lcount的值加1,并删除小顶堆H中的最小元素,调整小顶堆H的结构;
将抽样阈值τ更新为τ=Lsum′/Lcount′,其中,Lsum′:添加元素值后的样本;Lcount′:添加新元素后的样本数据个数;
其中,Lsum为累计值,Lcount为数据样本个数,所述小顶堆H的最大值为K,所述抽样阈值τ、累计值Lsum,数据样本个数Lcount的初始数据都为0;
所述动态构建方差优化直方图包括:
按序平均将K个样本数据存储在直方图的B个桶中,且计算直方图每个桶中数据的方差;
将存储样本的起始角标和结束角标作为桶的边界,记录桶中元素的方差,记录桶中元素的平均值和指向下一个桶的指针;
按桶的分裂合并代价,确定是否进行桶的分裂合并,使得所有桶的方差和最小;
按下式计算所述分裂合并代价Δε:
式中,j:待合并的两个桶中所有的元素;待合并的两个桶中元素的平均值;i:待分裂的桶中所有元素;待分裂的桶中元素的平均值;εM和εS:分别表示待合并桶和待分裂桶中元素的方差;
当所述分裂合并代价Δε<0时将待合并的两个桶合并,将待分裂的桶分裂为两个等宽的桶,并同时更新合并和分裂后桶的边界、方差及指向下一个桶的指针;
反之,不分裂合并。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710428418.6/1.html,转载请声明来源钻瓜专利网。