[发明专利]一种大数据分布式文件导出方法有效

专利信息
申请号: 201210575868.5 申请日: 2012-12-26
公开(公告)号: CN103034735B 公开(公告)日: 2017-02-08
发明(设计)人: 吴为民;武继孔;靳山虎 申请(专利权)人: 北京讯鸟软件有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京汲智翼成知识产权代理事务所(普通合伙)11381 代理人: 陈曦,景志
地址: 100086 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 分布式 文件 导出 方法
【说明书】:

技术领域

本发明涉及一种大数据分布式文件导出方法,属于数据处理技术领域。

背景技术

云存储系统是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等技术,将网络中大量不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的数据服务系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中也需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储系统是一个以数据存储和管理为核心的云计算系统。

云存储系统使存储完全虚拟化,这样可以大大简化应用的环节,从而为客户节省建设成本,并且向客户提供了更稳定的存储性能以及更强大的共享功能,云存储系统中的存储设备对使用者完全透明,任何地方在被授权的情况下都可以通过网络与云存储系统进行连接。

在传统的大数据文件导出方法中,首先是查询一批数据后写入文件中,查询一批数据使用的时间取决于数据库的数据量大小、SQL复杂程度及时间条件的跨度。写入文件也是一个比较耗时的过程,并且没有办法在云存储系统的基础上把几个服务器的数据合并到一个文件中,如果要合并云存储系统的数据则需要在程序中进行查询合并,这样的效率会更慢,导出一个上百万条数据的文件耗时很长。

所以,基于云存储系统的大数据导出需求应运而生。但是,目前的大数据文件导出方法还是传统的单服务器分步骤进行,目前还没有可以保证数据完整及正确性的分布式数据文件导出机制。

图4为传统的数据文件导出过程示意图。如图4所示,传统的查询和写入文件是串行模式,用户请求服务器查询数据,会根据服务器压力、数据库的数据量及查询语句的复杂程度决定本次操作的速度,等所有工作进行完成后,下载到用户指定的位置。

在申请号为200910166485.0的中国发明专利申请中,公开了一种数据导出的方法和装置,所述方法包括:接收待导出数据的导出条件和导出配置信息,所述导出配置信息包括单个任务的最大线程数和每个线程的单次记录数;根据所述导出条件、最大线程数和单次记录数生成导出任务;依据所述导出任务对所述待导出数据进行导出。所述方法及装置避免了在大数据量情况下,单线程操作的响应时间过长的问题,提高了大数据量的导出效率。

发明内容

本发明所要解决的技术问题在于提供一种大数据分布式文件导出方法。

为实现上述的发明目的,本发明采用以下技术方案:

一种大数据分布式文件导出方法,用于由查询服务器、作为云存储服务器的多个数据检索服务器、文件合并服务器相互连接形成的查询系统,包括以下步骤:

S1:拆解查询语句步骤

所述查询服务器根据预定的条件,将源查询语句分拆解析成若干个子查询语句,分发给所述多个数据检索服务器;

S2:分布式云存储查询步骤

接收到所述子查询语句的所述数据检索服务器,进行并行查询;

S3:写入文件步骤

所述数据检索服务器将子检索结果并行写入子文件;

S4:合并文件并导出的步骤

所述文件合并服务器根据所述预定条件,抓取所述子文件并将所述子文件进行合并,然后导出。

所述查询解析服务器将所述子查询语句发送给所述数据检索服务器,同时向队列服务器发送注册消息,注册状态。

所述数据检索服务器在完成数据检索后,把数据写成文件,并通知所述队列服务器。

检查消息状态,在确认所有所述数据检索服务器完成文件的写入时,通知文件合并服务器抓取文件;

在确认未全部完成时,通知错误处理服务器,由错误处理服务器通知队列服务器出错信息,并向所述查询解析服务器发出重发请求,返回步骤S1。

本发明所提供的大数据分布式文件导出方法采用分布式方式导出大量数据,可以保证数据的完整及正确性,并且可以支持横向扩展,从而快速安全地导出大批量数据到文件中。

附图说明

图1为本发明所提供的大数据分布式文件导出方法的概略过程示意图;

图2为本发明所提供的大数据分布式文件导出方法的详细过程示意图;

图3为本发明所提供的大数据分布式文件导出方法的流程图;

图4为传统的数据文件导出过程示意图。

具体实施方式

下面结合附图说明本发明的技术方案。在此以云存储服务器为例进行说明。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京讯鸟软件有限公司,未经北京讯鸟软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210575868.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top