[发明专利]一种大数据在线交互式查询方法及系统在审
申请号: | 201510272521.7 | 申请日: | 2015-05-25 |
公开(公告)号: | CN104951509A | 公开(公告)日: | 2015-09-30 |
发明(设计)人: | 云晓春;王树鹏;吴广君;张晓宇;贾思宇 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余功勋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 在线 交互式 查询 方法 系统 | ||
技术领域
本发明属于信息技术领域,涉及一种大数据在线交互式查询方法及系统。
背景技术
随着互联网技术和Web2.0的发展,全球数据量正在以惊人速度的增长。IDC预计,到2020年人类会产生超过40ZB的数据。各行业正在进入大数据时代。在大数据环境下,存在一种重要的查询方法:即针对一个区间内的数据进行计算,并需要在线返回每个数据区间内的查询结果,实现交互式查询的目标。例如查询2014:12:01到2014:12:30期间内,以天单位的历史环境监测记录日志,分析“APEC”期间环境的变化;统计大型购物网站在双“十二”期间不同时间段内的点击率,以获得高峰期购物网站的流量特征。
上述计算的一个明显的特征是根据用户定义的一个数据区间长度,陆续获得各区间内的计算结果,并在线返回给用户。本发明中称用户定义的数据区间长度为计算窗口,计算窗口是通过字符串、数字、文件偏移量等标记描述的数据块的序列。当用户查询结果满足用户查询需求以后,可以实时终止查询任务,交互式查询的计算效率,节约后台计算资源。
与上述计算模式相关的技术和系统包括大数据流计算系统Spark Streaming、大数据分析系统Hive、以及相关的MapReduce改进技术。Spark Streaming是在Spark平台基础上扩展的流计算的插件。Spark Streaming根据数据流到达的时间,预先设定时间间隔把数据流分解成一系列数据段,在每个数据段上执行Action(如reduce,take(n)等操作),生成Spark中的RDD(Resilient Distributed Dataset)数据结构,并保存在内存中。Spark Streaming所采用的是传统的滑动窗口技术,仅能实现时间属性定义计算窗口,无法使用其他描述符定义的计算窗口。Hive是典型的基于Hadoop系统的数据分析系统,可以针对存储于HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)中的任意的历史数据进行分析。Hive利用HQL语言以及优化器,提供复杂查询统计功能。但是Hive以及类似的基于Hadoop的分析系统是基于MapReduce实现分布式计算。由于MapReduce是按照固定的数据块长度,读取HDFS中的数据,再获得最后的统计结果以后,一次性的返回给用户。上述原理决定了传统MapReduce技术无法高效的支持在线交互式查询。
目前,基于MapReduce已经提出大量的研究成果,包括引入计算资源管理功能的YARN,基于MapReduce构建索引等方法(An M,Wang Y,Wang W.Using index in the mapreduce framework[C]//Web Conference(APWEB),201012th International Asia‐Pacific.IEEE,2010:52‐58.)。都可以显著提升大数据的计算效率。但是上述技术都无法按照用户定义计算窗口实现,流式在线返回,一般都需要全部处理完数据以后,一次性的返回给用户最终的计算结果。无法满足交互式查询的需求。
综上所述,以Spark Streaming为代表的大数据流计算技术与方法,仅能实现时间属性的滑动窗口技术,无法任意的历史数据按照用户自定义的计算窗口进行流式计算与分析;基于MapReduce的数据方法与系统可以针对历史数据提供容错与稳定的计算框架,但是由于Map和Reduce之间数据传递方式的限制,无法满足交互式查询中流式返回计算结果的计算需求,因此无法支持在线交互式查询。
发明内容
本发明的目的是提供一种大数据在线交互式查询方法及系统。通过改进MapReduce框架下Map和Reduce之间的数据传递规则,使得Map按照用户定义的计算窗口分块读取并计算计算窗口内的数据,然后直接把计算结果推送给Reduce端,Reduce端在处理完数据后立即返回给用户。以此实现大数据环境下,用户可以根据业务选取不同的属性定义计算窗口,流式返回各个窗口内的计算结果,实现交互式计算的目标。
为了实现上述目的,本发明采用以下技术方案:
一种大数据在线交互式查询方法,包括:用户首先根据业务需求定义与业务相关的计算窗口划分方法,然后根据用户定义的计算窗口划分方法建立计算窗口与HDFS中存储的数据文件映射关系,并通过修改Map Reduce框架下数据获取方式,使得Reduce端实时返回每个计算窗口内的计算结果,实现大数据环境下数据的在线交互式查询。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510272521.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种负面舆情指数的计算方法及系统
- 下一篇:获取多媒体文件的方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置