[发明专利]一种矩阵计算求变过程中优化数据存储空间的方法和装置在审
申请号: | 202010650257.7 | 申请日: | 2020-07-08 |
公开(公告)号: | CN112559515A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 王清杰 | 申请(专利权)人: | 北京德风新征程科技有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 101499 北京市怀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 矩阵 计算 过程 优化 数据 存储空间 方法 装置 | ||
本发明公开了一种矩阵计算求变过程中优化数据存储空间的方法和装置,包括如下步骤:S1对于第i轮分块,根据所述第i轮分块获得的第一子矩阵、第二子矩阵、第三子矩阵和第四子矩阵获得所述第i轮分块的第一辅助矩阵、第二辅助矩阵、第三辅助矩阵和过渡矩阵;S2清除第i轮分块过程中的洗牌操作产生的块文件;将所述第i轮的过渡矩阵存储于数据缓存,清除用于存储第(i‑2)轮分块的过渡矩阵的数据缓存。本发明能有效提高计算效率,数据存储空间的占用量呈几何级下降,能降低存储成本,能在存储资源有限时使应用程序保持高效的执行效率,同时,增强了对数据的存储以及对数据的处理的能力。
技术领域
本发明涉及计算机技术领域,尤其涉及一种矩阵计算求变过程中优化数据存储空间的方法和装置。
背景技术
Spark框架是一个集批处理、实时处理于一体的基于内存计算的开源集群计算框架,能够并行处理大数据集的计算。Spark框架采用弹性分布式数据集进行迭代计算,提高了计算效率。随着数据规模的不断扩大,对计算使用的磁盘空间大小的要求也越来越高。若计算时存储空间不足,会导致弹性分布式数据集(Resilient Distributed Datasets,简称RDD)缓存失败、洗牌(shuffle)操作失败,最终导致计算任务失败。计算方阵的逆矩阵时,常采用将方阵进行分块后再通过计算获得方阵的逆矩阵的方法。
现有技术由于不主动清除数据存储空间,使得磁盘空间占用量将大量增长。在矩阵分块求逆算法后期,随着迭代次数的增加,每次迭代计算时间无法确定,磁盘增量无法确定,从而无法实现磁盘容量精确控制,进而无法保证足够多的磁盘空间。若磁盘空间不足将会使已缓存的中间数据被剔除,从而引发重复计算,进而影响计算性能。
发明内容
基于背景技术存在的技术问题,本发明提出了一种矩阵计算求变过程中优化数据存储空间的方法和装置。
本发明提出的一种矩阵计算求变过程中优化数据存储空间的方法,包括如下步骤:
S1对于第i轮分块,根据所述第i轮分块获得的第一子矩阵、第二子矩阵、第三子矩阵和第四子矩阵获得所述第i轮分块的第一辅助矩阵、第二辅助矩阵、第三辅助矩阵和过渡矩阵;
S2清除第i轮分块过程中的洗牌操作产生的块文件;将所述第i轮的过渡矩阵存储于数据缓存,清除用于存储第(i-2)轮分块的过渡矩阵的数据缓存;
S3对于第j轮求逆,获得第j轮求逆的计算结果之后,将第j轮求逆的计算结果存储于数据缓存;
S4清除用于存储求逆的计算结果的数据缓存和清除用于存储第(N+1-j)轮分块的第一辅助矩阵、第二辅助矩阵和第三辅助矩阵的数据缓存;
S5将待写入数据库中的数据值对中的数据拆分为第一子数据和第二子数据;
S6采用哈希算法根据包括所述第一子数据在内的一部分或者全部的所述数据对所述数据进行分桶;
S7将第一子数据作为已更新的数据存储到数据库之中,将第二子数据以及数据值对中的值数据组成已更新的数据值对,写入到散列表的哈希桶中;
S8将存储的数据进行数据缓存,清除无用的数据缓存;
S9数据库用于结构化数据和经数据库输入的部分非构化数据的缓存,并进行深度汇总、计算,将数据传输到数据库,数据库将数据进行存储。
优选的,所述第二子数据是数据末尾的第一数量的位的数据,第一子数据是数据除了第二子数据以外的其他位的数据。
一种矩阵计算求变过程中优化数据存储空间的装置,包括至少一个处理器;以及与所述处理器通信连接的至少一个存储器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京德风新征程科技有限公司,未经北京德风新征程科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010650257.7/2.html,转载请声明来源钻瓜专利网。