[发明专利]一种提高海量空间数据处理效率的方法有效

专利信息
申请号: 201310148086.8 申请日: 2013-04-25
公开(公告)号: CN103235974A 公开(公告)日: 2013-08-07
发明(设计)人: 李连发;王阳;赵斯思;王劲峰;梁金能 申请(专利权)人: 中国科学院地理科学与资源研究所
主分类号: G06N7/00 分类号: G06N7/00
代理公司: 北京科迪生专利代理有限责任公司 11251 代理人: 贾玉忠;成金玉
地址: 100101 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种提高海量空间数据处理效率的方法,步骤为:公共算子提取、公共算子并行策略设计、公共算子并行实现、公共算子调用、公共算子组合等步骤。本发明通过将空间数据处理中的基础与通用部分提取出来作为公共算子,基于MPI进行并行化,在数据规模上可以处理百万样本、上百个属性的海量空间数据,而现有空间数据处理方法是无法运算的,同时可以高效正确地进行处理,任务提交、参数设定采用网页进行交互,所有计算都集中在服务端高效执行完成,客户端压力小且操作简单。
搜索关键词: 一种 提高 海量 空间 数据处理 效率 方法
【主权项】:
一种提高海量空间数据处理效率的方法,其特征在于包括以下步骤:(1)公共算子提取(1.1)将空间数据处理方法按输入输出、实现思路、功能用途不同分为预处理、空间特征探索、空间信息计算和结果推断四个部分,每个部分包含多个空间处理模型,单个模型能够完成一个完整的空间数据处理功能;(1.2)研究(1.1)中每个部分所包含的空间处理模型,依据功能完整性与不可分割性原则,将空间处理模型分拆为多个独立模块,每个模块都作为一个公共算子,其处理结果作为后续流程上其他公共算子的输入数据、输入条件或直接为最终结果;(1.3)对提取到的公共算子集进行筛选,去除重复,得到需要进行并行化加速处理的公共算子集;至此已将所有空间数据处理方法中的公共算子提取出来,继而需要对公共算子进行并行化处理实现加速;(2)公共算子并行策略设计(2.1)将步骤(1.3)中得到的每个公共算子划分为更细致的计算单元,单个计算单元只进行一次最简单的完整计算操作,求期望和对数;计算单元之间为顺序串行,内部实现为并行;(2.2)逐个判断计算单元的类型,制定数据分块分发策略,若计算单元全部为本地计算Local或邻域计算Focal,栅格数据按行进行分块,矢量数据需考虑空间拓扑关系,按照单一节点数据完整性的原则进行分块;如果包含全局计算Global,所有节点运算都需要数据,因此不进行分块,而将数据发送所有节点,发送采用广播策略,进行广播时的基本单元为进程,一个进程就是一个计算与通信单元,通常为CPU中的一个核心,每个进程得到数据之后加入广播者,向本节点的剩余进程与其它节点的所有进程发送;(2.3)数据分块策略设计完成后,需要进行计算单元的并行策略设计。计算单元分为全局参数计算以及单样本值循环计算。首先,进行全局参数计算的并行策略设计,并行策略有区域分解、功能分解,由于全局参数计算表达为一个数学公式,对该公式进行分解,将需要进行处理的空间数据分配给多个进程;(2.4)进行单样本值循环计算的并行策略设计,由于每一次的计算只依赖各样本值与全局参数,与其他样本计算无关,可采用数据并行策略,将样本平均分配至各个进程;至此,所有公共算子的并行策略已经设计完成,依据制定的并行策略,采用特定编程语言以及并行接口实现公共算子;(3)公共算子并行实现(3.1)根据步骤(2)中提到的数据分块分发策略与计算单元的并行策略,基于MPI即Message Passing Interface,基于消息传递接口的并行库,设计四种并行原语,包括分发Map、规约Reduce、广播Broadcast、交叉运算Multiplex,从而实现对MPI函数库的扩展,提高公共算子在大数据条件下尤其是海量空间数据的传输效率;(3.2)依据步骤(3.1)中的四种并行原语以及MPI函数,采用高级语言C++编写代码,将公共算子进行并行化处理,得到高效运行的并行公共算子集;(3.3)将步骤(3.2)实现的公共算子在单节点与多节点集群上分别进行并行效率测试,统计IO、通信代价,不断改进,直至得到满足要求的可执行并行公共算子;至此,所有的公共算子已经并行实现,每个公共算子都会编译成一个高效运行在高性能计算平台上的独立可执行文件;(4)公共算子调用(4.1)将步骤(3.3)中得到的公共算子的可执行文件部署到高性能集群上,并编写守护进程,集群上的守护进程是随系统启动并在后台运行的服务,用来进行参数解析、任务执行、结果反馈;(4.2)守护进程启动后,用户即在客户端浏览器通过网页提交公共算子计算所需参数,由Web服务器将参数写入数据库中;(4.3)守护进程从数据库中读取公共算子计算参数并解译得到包含多个Key‑Value键值对的哈希表,Key表示参数名称,Value表示参数值,将哈希表中的所有键值对拼接处理后得到需要进行空间数据处理任务的指令表达;(4.4)守护进程运行(4.3)中得到的任务指令,同时将运行输出信息与日志写入数据库中,运算所得结果写入磁盘;(4.5)Web服务器从磁盘以及数据库提取输出信息与日志,组织后将运行输出、日志、计算结果构建为网页反馈给用户,用户获得运算结果以及输出信息后,整个公共算子调用过程也就结束;当进行简单空间数据处理时,即只进行单个公共算子的使用,整个流程至此已经结束,此时用户已可以通过网页将公共算子参数提交,并获得运算结果、输出信息以及日志;(5)公共算子组合如果需要进行复杂空间数据处理或者完成特定领域的空间数据处理要求,则直接跳过步 骤(4),执行步骤(5);(5.1)将步骤(3)中得到的公共算子的可执行文件部署到高性能集群上,并编写守护进程;(5.2)研究要进行的复杂空间数据处理或特定领域空间数据处理的逻辑结构,得到所需公共算子及各个公共算子之间的逻辑结构关系,包括公共算子执行先后关系、依赖关系以及公共算子输入输出之间的关系;(5.3)根据步骤(5.2)得到的逻辑结构关系,在可视化复杂模型编辑器中,将公共算子通过带方向的连接线组合,得到可视化模型;(5.4)复杂模型编辑器将所得可视化模型转换为带有顺序的指令集合,同时将指令集合提交到数据库中;(5.5)守护进程从数据库读取指令集合进行解译,确定依赖关系后逐步运行,并将日志写入数据库;(5.6)等待步骤(5.5)中所有指令顺序依次运行完成后,守护进程将空间处理所得结果写入磁盘,由Web服务器反馈给用户;若运行失败,根据日志进行回滚,并将错误信息反馈给用户,至此提高海量空间数据处理的方法已经构建完成。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院地理科学与资源研究所,未经中国科学院地理科学与资源研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310148086.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top