[发明专利]基于申威芯片架构并行文件读取的数据预处理方法有效
申请号: | 201810893877.6 | 申请日: | 2018-08-07 |
公开(公告)号: | CN109271344B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 陈建海;周宇;张淼;何钦铭;沈钦仙 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/16;G06F9/50 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 芯片 架构 并行 文件 读取 数据 预处理 方法 | ||
1.一种基于申威芯片架构并行文件读取的数据预处理方法,其特征在于,包括以下步骤:
(1)将内存运行模式设置为全片共享模式;
(2)预处理进程读取数据文件的元数据信息,根据所述的元数据信息对计算进程进行分组;
(3)预处理进程根据计算进程分组信息,建立对应的MPI模型,调用MPI-IO并行读取函数读取数据文件;包括:
(3-1)预处理进程根据计算进程组的空间关系,建立对应维度和维度长度的笛卡尔通信域;
(3-2)根据元数据信息中数据类型、维度以及每个维度的长度,笛卡尔通信域中的预处理进程建立对应的MPI数据类型和文件视图;
(3-3)笛卡尔通信域中预处理进程调用MPI-IO函数并行读取数据文件;
(4)对预处理进程所读取的数据进行维度转化,使对应计算进程组中每个计算进程所对应的数据块连续排布;
将维度转化后的数据写回到对应的计算进程组对应的数据文件中,并建立对应的元数据文件。
2.根据权利要求1所述的基于申威芯片架构并行文件读取的数据预处理方法,其特征在于,步骤(2)中,所述元数据信息包括数据文件的维度、每个维度的长度以及数据类型,还包括计算进程数以及每个计算进程需要读取的数据大小;所述数据大小包括数据对应在每个维度上的长度。
3.根据权利要求1所述的基于申威芯片架构并行文件读取的数据预处理方法,其特征在于,步骤(2)包括:
(2-1)预处理主进程读取数据文件的元数据信息;
(2-2)将一个计算进程需要读取的数据作为一个数据块,将数据文件划分成若干个数据块,将数据文件抽象成一个网格;该网格每个维度上数据块的个数作为该网格维度的长度;
(2-3)对计算进程进行分组:
(a)确定计算进程组数:
设计算进程总数为k,预处理进程总数为M;
从M到1,按照从大到小的方式逐步调整m值,每次调整幅度为1,直至m为k的约数,停止,将此m值作为计算进程组数;
(b)对计算进程组数m做质因数分解,并按降序排列分解出的质因数;
(c)将质因数分配至合适的网格维度上:
每次寻找长度最大的网格维度,按照从大到小的顺序依次选择质因数;
若最大网格维度的长度是该质因数的倍数,则将该网格维度的长度更新为该网格维度的长度与该质因数的商,将该质因数置为0;
若最大网格维度的长度不是该质因数的倍数,则按照从大到小的顺序选择下一质因数;
(d)重复步骤(c),直至将所有的质因数分配完毕;若没有质因数分配到某个网格维度,则默认该网格维度上分配的质因数为1;
(e)每个网格维度的长度除以该网格维度上所分配的质因数之积,所得的商为一个计算进程组在该网格维度上的计算进程数,得到计算进程组的空间关系,以此对计算进程进行分组;
(2-4)预处理主进程将元数据信息和计算进程分组信息广播给其他预处理进程。
4.根据权利要求1所述的基于申威芯片架构并行文件读取的数据预处理方法,其特征在于,在笛卡尔通信域中,预处理进程数等于计算进程组数。
5.根据权利要求1所述的基于申威芯片架构并行文件读取的数据预处理方法,其特征在于,步骤(4)中,所述的维度转化是指:在预处理进程对应的计算进程组中,按照计算进程的空间关系,将该预处理进程所读取的数据顺序排布。
6.根据权利要求1所述的基于申威芯片架构并行文件读取的数据预处理方法,其特征在于,步骤(4)中,对预处理进程所读取的数据块进行维度转化具有两种方式:
(ⅰ)在预处理进程的内存中,对数据块的存放顺序进行维度转化,使一个计算进程所对应的数据块连续排布;
或,(ⅱ)在将预处理进程中的数据写回到各计算进程的数据文件过程中,将一个计算进程所对应的所有数据块写回完成后,再写回下一计算进程所对应的所有数据块,直至数据写回完成。
7.根据权利要求1所述的基于申威芯片架构并行文件读取的数据预处理方法,其特征在于,步骤(4)中,所述的元数据文件包括:计算进程组中每个计算进程所对应数据的起始位置以及数据量、数据类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810893877.6/1.html,转载请声明来源钻瓜专利网。