[发明专利]一种负载均衡的空间数据处理系统有效
申请号: | 201410099363.5 | 申请日: | 2014-03-18 |
公开(公告)号: | CN103942253B | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 何耀彬;黄建新 | 申请(专利权)人: | 深圳市房地产评估发展中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/50 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙)44316 | 代理人: | 宋鹰武,沈祖锋 |
地址: | 518040 广东省深圳市福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 负载 均衡 空间 数据处理 方法 系统 | ||
技术领域
本发明涉及计算机系统领域,特别涉及一种负载均衡的空间数据处理系统。
背景技术
空间数据处理技术是“智慧城市”、航天遥感、公共卫生与健康、灾害预警等众多领域中使用的关键技术。传统的空间数据处理系统,如GIS系统、关系数据库系统等,不少已经具备着比较完善高效的算法库;但是受制于历史原因,大多数的系统及算法库都只是基于单机的——如果数据量太大,单一计算机内存不能一次容纳所有的待处理数据,将必然导致大量的内外存缓存切换,造成严重的系统延缓。而随着数据获取的器材与技术在质量上和数量上的迅速发展,所获取到的空间数据的规模更大、增长极快,数据的类型也呈多样化,同时空间数据处理算法普遍计算复杂度都比较大,这些不利的因素都对这些传统的空间数据处理系统构成了巨大的挑战。
现今的大型计算机可以提供先进的处理器和大量的内存。然而,即使计算机内存能容纳所有数据,但由于很多数据处理算法的计算量并非随着数据量增加而线性增长的,而是平方级甚至指数级增长,因此不能通过简单移植单机算法来解决海量数据处理的问题。而如果能设计一套并行处理过程,通过对原始数据进行有效分区再分别计算,最后进行聚合运算,那么将有效的降低整体的计算量。因此并行处理是大数据处理的必由之道。
并行处理过程除了需要设计好各部分的局部处理算法和整体合并算法外,还必须处理如何进行有效分区的问题。从实验观察,处理算法的计算量并非与待处理的数据量成正比,而且与数据的空间分布与索引密切相关;因此,如果仅凭平分数据量进行分区计算,将可能造成负载严重不均衡,根据木板原理——最终完成时间取决于计算最慢的分区,这将严重妨碍并行计算处理的效率。譬如,发明人对超过十亿条原始空间数据进行聚类处理,将所有数据按数据量平分到16台配置一样的计算机分别处理,实验表明负载最多的一台比负载最少的一台慢了近68倍时间完成计算任务。
发明内容
本发明通过一种负载均衡的空间数据处理系统,有效平均分配每一台并行处理器的处理计算负荷,提高了并行集群系统的设备利用率、降低了全局计算时间;统计分析数据和结果都存储在系统中,可供本组数据执行其他分析应用时调用,节省了计算时间。
本发明采用如下技术方案:
一种负载均衡的空间数据处理系统,用于实现空间数据的并行分区处理达致负载均衡,其特征在于,所述负载均衡的空间数据处理系统包括:
获取数据模块,用于获取原始数据,汇总原始数据,读取原始数据并加载到处理系统,将文本格式的原始数据处理为以每行为一条数据记录的文本格式,将非文本格式的原始数据处理为以链接等方式与该条数据记录产生连接耦合;
数据分布统计模块,用于对所述获取数据模块处理后的数据进行分布统计,得出分布统计结果;其中,对所述数据模块处理后的数据进行分布统计包括:按照预设的空间格栅大小,将全局数据空间分解为多个格栅,作为原子空间;利用并行处理系统,并行统计每个所述原子空间内的数据量及局部分布,将统计结果存为统计文件,并在统计过程中对输入数据进行校验,清洗掉不符合处理规范的数据,按照数据处理的需求和算法对所述原子空间的大小进行设定;
智能分区计算模块,用于根据所述分布统计结果,得出负载均衡的分区结果;
数据分发模块,用于将所述数据进行按照所述负载均衡的分区结果进行分发,拓扑结构中的每台计算服务器接收分发来的数据;
分区处理模块,用于拓扑结构中的每台计算服务器将分别执行具体空间数据处理方法,得出各个分区的局部处理结果,并将其暂存;
合并处理模块,用于通过具体空间数据处理方法及所述分区结果,得出各分区的处理结果修正映射表,根据修正映射表修正全部局部结果,合并得出全局结果;
数据存储模块,用于将符合条件的所述全局结果存储在空间数据库中,不符合条件的所述全局结果通过调整参数后,再次重复所述获取数据模块、数据分布统计模块、智能分区计算模块、数据分发模块、分区处理模块、合并处理模块的处理过程,直到所述全局结果符合条件后,将所述全局结果存储在空间数据库中。
本发明公开的一种负载均衡的空间数据处理系统,能实现有效平均分配每一台并行处理器的处理计算负荷,提高了并行集群系统的设备利用率、降低了全局计算时间;统计分析数据和结果都存储在系统中,可供本组数据执行其他分析应用时调用,节省了计算时间。
附图说明
图1为本发明实施例提供的一种负载均衡的空间数据处理方法;
图2为本发明实施例提供的一种负载均衡的空间数据处理系统。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市房地产评估发展中心,未经深圳市房地产评估发展中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410099363.5/2.html,转载请声明来源钻瓜专利网。