[发明专利]一种矩阵计算求变过程中优化数据存储空间的方法和装置在审

申请号：	202010650257.7	申请日：	2020-07-08
公开（公告）号：	CN112559515A	公开（公告）日：	2021-03-26
发明（设计）人：	王清杰	申请（专利权）人：	北京德风新征程科技有限公司
主分类号：	G06F16/22	分类号：	G06F16/22;G06F16/2455
代理公司：	暂无信息	代理人：	暂无信息
地址：	101499 北京市怀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种矩阵计算过程优化数据存储空间方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种矩阵计算求变过程中优化数据存储空间的方法和装置，包括如下步骤：S1对于第i轮分块，根据所述第i轮分块获得的第一子矩阵、第二子矩阵、第三子矩阵和第四子矩阵获得所述第i轮分块的第一辅助矩阵、第二辅助矩阵、第三辅助矩阵和过渡矩阵；S2清除第i轮分块过程中的洗牌操作产生的块文件；将所述第i轮的过渡矩阵存储于数据缓存，清除用于存储第(i‑2)轮分块的过渡矩阵的数据缓存。本发明能有效提高计算效率，数据存储空间的占用量呈几何级下降，能降低存储成本，能在存储资源有限时使应用程序保持高效的执行效率，同时，增强了对数据的存储以及对数据的处理的能力。

技术领域

本发明涉及计算机技术领域，尤其涉及一种矩阵计算求变过程中优化数据存储空间的方法和装置。

背景技术

Spark框架是一个集批处理、实时处理于一体的基于内存计算的开源集群计算框架，能够并行处理大数据集的计算。Spark框架采用弹性分布式数据集进行迭代计算，提高了计算效率。随着数据规模的不断扩大，对计算使用的磁盘空间大小的要求也越来越高。若计算时存储空间不足，会导致弹性分布式数据集(Resilient Distributed Datasets，简称RDD)缓存失败、洗牌(shuffle)操作失败，最终导致计算任务失败。计算方阵的逆矩阵时，常采用将方阵进行分块后再通过计算获得方阵的逆矩阵的方法。

现有技术由于不主动清除数据存储空间，使得磁盘空间占用量将大量增长。在矩阵分块求逆算法后期，随着迭代次数的增加，每次迭代计算时间无法确定，磁盘增量无法确定，从而无法实现磁盘容量精确控制，进而无法保证足够多的磁盘空间。若磁盘空间不足将会使已缓存的中间数据被剔除，从而引发重复计算，进而影响计算性能。

发明内容

基于背景技术存在的技术问题，本发明提出了一种矩阵计算求变过程中优化数据存储空间的方法和装置。

本发明提出的一种矩阵计算求变过程中优化数据存储空间的方法，包括如下步骤：

S1对于第i轮分块，根据所述第i轮分块获得的第一子矩阵、第二子矩阵、第三子矩阵和第四子矩阵获得所述第i轮分块的第一辅助矩阵、第二辅助矩阵、第三辅助矩阵和过渡矩阵；

S2清除第i轮分块过程中的洗牌操作产生的块文件；将所述第i轮的过渡矩阵存储于数据缓存，清除用于存储第(i-2)轮分块的过渡矩阵的数据缓存；

S3对于第j轮求逆，获得第j轮求逆的计算结果之后，将第j轮求逆的计算结果存储于数据缓存；

S4清除用于存储求逆的计算结果的数据缓存和清除用于存储第(N+1-j)轮分块的第一辅助矩阵、第二辅助矩阵和第三辅助矩阵的数据缓存；

S5将待写入数据库中的数据值对中的数据拆分为第一子数据和第二子数据；

S6采用哈希算法根据包括所述第一子数据在内的一部分或者全部的所述数据对所述数据进行分桶；

S7将第一子数据作为已更新的数据存储到数据库之中，将第二子数据以及数据值对中的值数据组成已更新的数据值对，写入到散列表的哈希桶中；

S8将存储的数据进行数据缓存，清除无用的数据缓存；