[发明专利]面向大数据环境的概要信息动态构建与查询方法及装置有效
申请号: | 201510061345.2 | 申请日: | 2015-02-05 |
公开(公告)号: | CN104657450B | 公开(公告)日: | 2018-09-25 |
发明(设计)人: | 吴广君;王树鹏;陈明;张晓宇;张燕琴 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 数据 环境 概要 信息 动态 构建 查询 方法 装置 | ||
本发明涉及一种面向大数据环境的概要信息动态构建与查询方法及装置。该方法以Count‑Min Sketch方法为基础,采用数据流的第一范数描述数据规模,采用数据的基数值描述数据的分布情况;首先为流式大数据分配一较小空间的Count‑min Sketch结构,随着数据不断加载,当Count‑min Sketch结构记录的数据项个数达到阈值且数值空间基数达到阈值以后,建立新的Count‑min Sketch结构,用以接收后续到来的新数据。本发明能够根据数据量和数值基数自动建立新的Sketch结构,以较高精度统计数据,有效支持流式大数据的高精度的实时统计和分析。
技术领域
本发明属于信息技术领域,具体涉及一种面向大数据环境的概要信息动态构建与查询方法及装置。
背景技术
流式大数据是指以数据流的方式高速到达并实时写入到存储管理系统中的数据源,也称为FastData。流式大数据不但具有高吞吐率、体量巨大的特点,而且数据规模与数据值范围往往不可预知。例如海量微博数据,实时的交易日志,门户网站的click stream等。有效处理并分析上述数据,可以充分挖掘隐藏在海量数据源中的有价值信息,统计数据的规律,为决策者提供重要的决策支持依据。
但是针对流式大数据,传统的统计方法与系统已经不再适用。与本发明相类似的技术领域是大数据存储管理技术与在线流数据处理技术。
传统的数据库以及基于Hadoop的相关大数据存储管理系统与方法,是基于批处理模式实现的,批处理模式是先存储后处理,无法应对流式大数据高速达到的应用特征。尽管Storm,Spark Streaming等系统基于内存计算可以提高对于高速到达数据的响应时间,但是由于二者是精确计算方法,即,需要维护与原始数据等量的内存空间来支持数据的统计查询,因此存储的数据量有限,很难适应流式大数据海量数据的规模特征。
在线流数据处理技术可以有效处理按时间次序不断到达的有序数据序列。流数据的研究核心就是设计高效的单遍数据集的方法,在一个远小于数据规模的内存空间里不断更新压缩后的数据结构,这一结构成为数据的概要信息(Sketching)。目前针对流数据典型的概要信息构建方法是基于Hash技术,构建以位为单位的概要数据结构。常用于估计数据集的二阶矩大小、估计数据集自连接的大小、获得数据集中频繁项列表等。典型的概要数据技术包括:Count Sketch(M.Charikar,K.Chen,and M.Farach-Colton.Finding frequentitems in data streams.In International Colloquium on Automata,Languages andProgramming(ICALP),2002.)、Count-Min Sketch(G.Cormode,S.Muthukrishnan.Animproved data stream summary:the count-min sketch and itsapplications.Journal of Algorithms.2005,vol.55,no.1.pp.58-75.)、AMS Sketch(N.Alon,Y.Matias,andM.Szegedy.Thespace complexity ofapproximatingthefrequencymoments.In Proceedings of the Twenty-Eighth Annual ACM Symposium on theTheory of Computing,pages 20–29,1996.Journal version in Journal of Computerand System Sciences,58:137–147,1999.)等;用来查找基数的Sketch结构有LinearSpace Solution(G.M.Lee,H.Liu,Y.Yoon,andY.Zhang.Improving sketchreconstruction accuracy using linear least squares method.In InternetMeasurement Conference(IMC),2005.)、Flajolet-Martin Sketches(K.Y.Whang,B.T.Vander-Zanden,and H.M.Taylor.A linear-time probabilistic countingalgorithm for database applications.ACM Transactions on Database Systems,15(2):208,1990.)、Distinct Sampling(P.Gibbons.Distinct sampling for highly-accurate answers to distinct values queries and event reports.InInternational Conference on Very Large Data Bases,2001.P.Gibbons andS.Tirthapura.Estimating simple functions on the union of data streams.In ACMSymposium on Parallel Algorithms and Architectures(SPAA),2001.)等,此外还有基于sketch方法建立采样、小波、柱状图模型等方法。概要数据结构一般通过常驻内存方式,可以快速的支持针对任意原始数据的查询与处理,通常的概要数据可以提供限定误差的统计与分析计算,广泛应用于流数据的统计与分析中。但是由于流式大数据数据规模不可预知,数据的值域空间无法预先获得,导致传统的概要数据方法无法有效应对数据规模不断增长的流式大数据规模。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510061345.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置