[发明专利]一种大数据分布式文件导出方法有效
申请号: | 201210575868.5 | 申请日: | 2012-12-26 |
公开(公告)号: | CN103034735B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 吴为民;武继孔;靳山虎 | 申请(专利权)人: | 北京讯鸟软件有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汲智翼成知识产权代理事务所(普通合伙)11381 | 代理人: | 陈曦,景志 |
地址: | 100086 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 分布式 文件 导出 方法 | ||
技术领域
本发明涉及一种大数据分布式文件导出方法,属于数据处理技术领域。
背景技术
云存储系统是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等技术,将网络中大量不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的数据服务系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中也需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储系统是一个以数据存储和管理为核心的云计算系统。
云存储系统使存储完全虚拟化,这样可以大大简化应用的环节,从而为客户节省建设成本,并且向客户提供了更稳定的存储性能以及更强大的共享功能,云存储系统中的存储设备对使用者完全透明,任何地方在被授权的情况下都可以通过网络与云存储系统进行连接。
在传统的大数据文件导出方法中,首先是查询一批数据后写入文件中,查询一批数据使用的时间取决于数据库的数据量大小、SQL复杂程度及时间条件的跨度。写入文件也是一个比较耗时的过程,并且没有办法在云存储系统的基础上把几个服务器的数据合并到一个文件中,如果要合并云存储系统的数据则需要在程序中进行查询合并,这样的效率会更慢,导出一个上百万条数据的文件耗时很长。
所以,基于云存储系统的大数据导出需求应运而生。但是,目前的大数据文件导出方法还是传统的单服务器分步骤进行,目前还没有可以保证数据完整及正确性的分布式数据文件导出机制。
图4为传统的数据文件导出过程示意图。如图4所示,传统的查询和写入文件是串行模式,用户请求服务器查询数据,会根据服务器压力、数据库的数据量及查询语句的复杂程度决定本次操作的速度,等所有工作进行完成后,下载到用户指定的位置。
在申请号为200910166485.0的中国发明专利申请中,公开了一种数据导出的方法和装置,所述方法包括:接收待导出数据的导出条件和导出配置信息,所述导出配置信息包括单个任务的最大线程数和每个线程的单次记录数;根据所述导出条件、最大线程数和单次记录数生成导出任务;依据所述导出任务对所述待导出数据进行导出。所述方法及装置避免了在大数据量情况下,单线程操作的响应时间过长的问题,提高了大数据量的导出效率。
发明内容
本发明所要解决的技术问题在于提供一种大数据分布式文件导出方法。
为实现上述的发明目的,本发明采用以下技术方案:
一种大数据分布式文件导出方法,用于由查询服务器、作为云存储服务器的多个数据检索服务器、文件合并服务器相互连接形成的查询系统,包括以下步骤:
S1:拆解查询语句步骤
所述查询服务器根据预定的条件,将源查询语句分拆解析成若干个子查询语句,分发给所述多个数据检索服务器;
S2:分布式云存储查询步骤
接收到所述子查询语句的所述数据检索服务器,进行并行查询;
S3:写入文件步骤
所述数据检索服务器将子检索结果并行写入子文件;
S4:合并文件并导出的步骤
所述文件合并服务器根据所述预定条件,抓取所述子文件并将所述子文件进行合并,然后导出。
所述查询解析服务器将所述子查询语句发送给所述数据检索服务器,同时向队列服务器发送注册消息,注册状态。
所述数据检索服务器在完成数据检索后,把数据写成文件,并通知所述队列服务器。
检查消息状态,在确认所有所述数据检索服务器完成文件的写入时,通知文件合并服务器抓取文件;
在确认未全部完成时,通知错误处理服务器,由错误处理服务器通知队列服务器出错信息,并向所述查询解析服务器发出重发请求,返回步骤S1。
本发明所提供的大数据分布式文件导出方法采用分布式方式导出大量数据,可以保证数据的完整及正确性,并且可以支持横向扩展,从而快速安全地导出大批量数据到文件中。
附图说明
图1为本发明所提供的大数据分布式文件导出方法的概略过程示意图;
图2为本发明所提供的大数据分布式文件导出方法的详细过程示意图;
图3为本发明所提供的大数据分布式文件导出方法的流程图;
图4为传统的数据文件导出过程示意图。
具体实施方式
下面结合附图说明本发明的技术方案。在此以云存储服务器为例进行说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京讯鸟软件有限公司,未经北京讯鸟软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210575868.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:LED摇棒
- 下一篇:一种可翻转遥控玩具车
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置