[发明专利]一种自适应采样与查询方法及系统有效
申请号: | 202110231990.X | 申请日: | 2021-03-02 |
公开(公告)号: | CN112883064B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 王建民;沈恩亚;宋怡然;沈磊贤 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/2457;G06F16/26 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 陈新生 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自适应 采样 查询 方法 系统 | ||
1.一种自适应采样与查询方法,其特征在于,包括:
基于波动度的余弦距离权重函数,计算每一个数据点的波动度权重,并按照所述波动度权重,基于流式数据的特性,使用二分查找算法对累积数据进行快速自适应分桶,使得分桶结果中所有桶的最大权重和最小;
对每个分桶结果中的流式数据,通过多种采样算子提取相同数目的样本,以实现自适应的采样密度,得到对应的采样结果;
基于采样结果,从低层级样本中采样得到高层级的样本,构建保持层级结果一致性的层级样本结构,并根据所述层级样本结构,构建层级查询引擎;
基于用户的查询参数,当层级查询引擎查询到符合采样粒度的层级后,将保留当前层级的样本作为查询结果。
2.根据权利要求1所述的自适应采样与查询方法,其特征在于,所述基于波动度的余弦距离权重函数用于计算数据点的波动度权重,其中,所述波动度权重,为目标数据点与该目标数据点相邻前后两数据点的余弦距离。
3.根据权利要求1所述的自适应采样与查询方法,其特征在于,所述使用二分查找算法对累积数据进行快速自适应分桶,使得分桶结果中所有桶的最大权重和最小,包括:
对权重数组扫描一次,得到所有数据点的权重和与单个数据点权重的最大值;
将所有数据点的权重和与单个数据点权重的最大值作为桶权重和的上界与下界,并基于所述上界和所述下界为起点,通过二分查找算法,获取满足预设条件的桶权重和。
4.根据权利要求1所述的自适应采样与查询方法,其特征在于,所述基于采样结果,从低层级样本中采样得到高层级的样本,构建保持层级结果一致性的层级样本结构,包括:
将所述层级样本结构分为最低样本层级与上层样本层级,其中,最低样本层级,用于直接获取实时更新的原始数据,并对原始数据进行自适应分桶采样;上层样本层级不断轮询下一层级所得到的采样结果,并判断当前累计数据是否可以满足分桶条件;
当数据权重累计至分出自适应桶时,进行自适应采样,并将自采样结果传入上一层级,以实现整个层级样本结构的自底向上更新。
5.根据权利要求4所述的自适应采样与查询方法,其特征在于,所述根据所述层级样本结构,构建层级查询引擎,包括:
根据用户给定的样本数目或者采样误差条件,自顶向下查询层级样本结构,并返回满足条件的样本集合;
若当前层级样本不满足用户给定的条件,则确定当前层级采样粒度大于目标采样粒度,并查询下一层级样本,直到找到满足用户查询条件的样本层级。
6.根据权利要求5所述的自适应采样与查询方法,其特征在于,所述当层级查询引擎查询到符合采样粒度的层级后,将保留当前层级的样本作为查询结果,包括:
当所述层级查询引擎查询到符合采样粒度的层级后,保留当前层级的样本作为查询结果,并获取当前层级样本的最新数据点;且所述层级查询引擎将本层级样本结果的最新数据时间作为时间范围起始时间,向下一层级进行样本查询,直到查询到最低层级样本。
7.一种自适应采样与查询系统,其特征在于,包括:
分桶模块,用于基于波动度的余弦距离权重函数,计算每一个数据点的波动度权重,并按照所述波动度权重,基于流式数据的特性,使用二分查找算法对累积数据进行快速自适应分桶,使得分桶结果中所有桶的最大权重和最小;
采样模块,用于对每个分桶结果中的流式数据,通过多种采样算子提取相同数目的样本,以实现自适应的采样密度,得到对应的采样结果;
引擎构建模块,用于基于采样结果,从低层级样本中采样得到高层级的样本,构建保持层级结果一致性的层级样本结构,并根据所述层级样本结构,构建层级查询引擎;
查询模块,用于基于用户的查询参数,当层级查询引擎查询到符合采样粒度的层级后,将保留当前层级的样本作为查询结果。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述自适应采样与查询方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述自适应采样与查询方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110231990.X/1.html,转载请声明来源钻瓜专利网。