[发明专利]一种基于映射归约的分布式数据处理方法有效
申请号: | 202010915505.6 | 申请日: | 2020-09-03 |
公开(公告)号: | CN112037874B | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 李磊;张人杰;卜晨阳;吴信东 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F3/06 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 映射 分布式 数据处理 方法 | ||
本发明公开了一种基于映射归约的分布式数据处理方法,其步骤包括:1、对磁盘中的数据进行分片处理,2、在所设置的缓冲区内部,对第一步的处理结果再次进行数据处理,3、通过循环处理,对来自不同磁盘的数据进行规约。本发明通过对磁盘进行分片处理,对磁盘内部数据进行两次排序与合并,从而使得磁盘内部的数据通过映射规约能够有序地排列,高效查询,进而能够降低大规模数据处理时的工作量,提升运行效率。
技术领域
本发明属于数据处理技术领域,具体的说是一种基于映射归约的分布式数据处理方法。
背景技术
采用集中数据处理的传统数据处理模式中,来自所有终端的计算都由主机完成,这类网络处理速度可能有些慢。另外,如果用户有各种不同的需要,在集中式计算机网络上满足这些需要可能是十分困难的,因为每个用户的应用程序和资源都必须单独设置,而让这些应用程序和资源都在同一台集中式计算机上操作,使得系统效率不高。还有,因为所有用户都必须连接到一台中央计算机,集中连接可能成为集中式网络的一个大问题。集中式数据处理是基于一个大型的中央计算机,所有的数据、运算、处理任务全部在中央计算机系统上完成。中央计算机连接多个终端,终端用来输入和输出,不具有数据处理能力。远程终端通过网络连接到中央计算机,它们得到的信息是一致的。如果终端用户有不同的需要,要对每个用户的程序和资源做单独的配置,在集中式数据处理模式上做起来比较困难,而且效率不高。
传统的分布式数据处理虽然可以避免集中式处理的大部分问题,但是由于自身数据处理的特性,越是处理大规模的数据,对计算机硬件要求就越高。目前真正的电子病历数据还是存储在医疗机构本地的数据库中,现在的病历系统只是一个数据查询系统,无法满足不同医疗机构之间的数据处理问题。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种低硬件要求且具有高处理效率的基于映射归约的分布式数据处理方法,以期能通过对磁盘进行分片处理,对磁盘内部数据进行两次排序与合并,从而使得磁盘内部的数据通过映射规约能够有序地排列,高效查询,进而能够降低大规模数据处理时的工作量,提升计算机硬件运行效率。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于映射归约的分布式数据处理方法,是应用于由M个医院数据库和x个保存数据的磁盘N={N1,N2,...,Ni,...,Nx}所组成的数据处理环境中,其中,Ni表示保存数据的第i个磁盘,1≤i≤x,其特点是,所述分布式数据处理方法是按如下步骤执行:
步骤一、对磁盘中的数据进行分片处理;
步骤1.1、定义对第i个磁盘Ni所保存的数据分片的标准大小为S;定义第p个病人身份证号为kp,定义第p个病人病历信息为vp;由第p个病人身份证号kp及其所对应的第p个病历信息vp组合成第p个键值对(kp,vp)并存入第i个磁盘Ni中;
步骤1.2、将第m个医院数据库数据按照所定义标准分片大小S对第i个磁盘进行分片读取,从而得到第i个磁盘Ni的分片集合表示第i个磁盘Ni的第j个分片,1≤j≤n;1≤m≤M;
步骤1.3、定义缓冲区并对缓冲区进行均等分区,得到分区后的缓冲区B={B1,B2,...,Bq,...,Bu},Bq表示缓冲区B的第q个分区,1≤q≤u;
步骤1.4、将第p个病人所对应的规约任务Kp=kp%u添加到对应的第p个病人病历信息vp中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010915505.6/2.html,转载请声明来源钻瓜专利网。