[发明专利]一种估算误差可控的概要数据压缩方法在审
申请号: | 201510254377.4 | 申请日: | 2015-05-18 |
公开(公告)号: | CN104935348A | 公开(公告)日: | 2015-09-23 |
发明(设计)人: | 吴广君;云晓春;王树鹏 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | H03M7/30 | 分类号: | H03M7/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 司立彬 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 估算 误差 可控 概要 数据压缩 方法 | ||
技术领域
本发明属于信息技术领域,针对大数据环境下的近似查询系统概要数据不断膨胀的应用背景,提出一种误差可控的概要数据压缩方法。
背景技术
目前大数据分析处理技术已经广泛应用于各行业中,通过分析行业内的海量数据资源,为上层业务提供及时可靠的解决方案。近似计算是大数据分析处理系统中一种重要的技术手段,由于近似计算需要比原始数据少得多的概要数据,提供高精度的近似计算结果,在容忍一定误差的各类应用中已经被广泛采用。例如针对大型微博网站的微博数据统计、购物网站的点击流数据统计、交易日志流数据统计等系统中,近似计算不但能够有效应对海量的数据规模,同时也为上层业务提供高实时的决策支持。目前近似计算已经进一步应用在网络实时情感计算(参考文献:H.Wang,D.Can,A.Kazemzadeh,F.Bar,and S.Narayanan,“A system for real-time twitter sentiment analysis of 2012 u.s.presidential election cycle,”in Proceedings of the ACL2012 System Demonstrations,ser.ACL’12.Stroudsburg,PA,USA:Association for Computational Linguistics,2012,pp.115–120),经济数据指标预测(参考文献:T.Preis,H.S.Moat,and E.H.Stanley,“Quantifying trading behavior in financial markets using Google trends,”Sci.Rep.,vol.3,p.1684,2013)以及实时入侵检测系统等领域中(参考:X.Yun,Y.Wang,Y.Zhang,and Y.Zhou,“A semantics-aware approach to the automated network protocol identification,”Networking,IEEE/ACM Transactions on,vol.PP,no.99,pp.1–1,2015)。
但是大数据环境下的近似查询系统,面临概要数据不断膨胀的问题。即随着大数据规模的急剧膨胀,近似查询所依赖的概要数据规模也在不断的增加。此时面临估算精度与概要数据量之间的矛盾问题。即所提供的近似估算精度越高,所需存储的概要数据量就越大。最近提出的大数据近似计算技术,如:近似top-k计算(参考:J.Jestes,J.M.Phillips,F.Li,and M.Tang,“Ranking large temporal data,”Proc.VLDB Endow.,vol.5,no.11,pp.1412–1423,Jul.2012)、近似range-sum计算(参考X.Yun,G.Wu,G.Zhang,K.Li,and S.Wang,“Fastraq:A fast approach to range-aggregate queries in big data environments,”Cloud Computing,IEEE Transactions on,vol.PP,no.99,pp.1–1,2014),有序集合采样方法(参考:E.Cohen,G.Cormode,and N.Duffield,“Structure-aware sampling:Flexible and accurate summarization,”Proceedings of the VLDB Endowment,vol.4,no.11,2011),以及滑动窗口技术(参考:M.Datar,A.Gionis,P.Indyk,and R.Motwani,“Maintaining stream statistics over sliding windows:(extended abstract),”in Proceedings of the Thirteenth Annual ACM-SIAM Symposium on Discrete Algorithms,ser.SODA’02,2002,pp.635–644)等,都没有考虑到概要数据容量问题。当新老数据采用统一的误差参数时,如果希望获得高精度的估算结果,则需要设置较低的误差参数,此时就需要维护更大规模的概要数据。而对于长期且不经常使用的概要数据,保存较大规模的概要数据明显浪费空间。其他的解决方法也包括采用高速介质,例如使用SSD固态硬盘,存储概要数据,在扩大内存容量的基础上,提高概要数据的访问效率。但是这一解决思路不但成本较高,而且仍然没有解决大数据环境下,不同概要数据的估算精度和概要数据量之间的矛盾问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510254377.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图像解码设备
- 下一篇:一种环氧浇注干式变压器铁芯夹紧降噪结构