[发明专利]减少用于大数据处理的存储容量的方法在审
申请号: | 202110065025.X | 申请日: | 2021-01-18 |
公开(公告)号: | CN113542341A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 沈应辅 | 申请(专利权)人: | 爱思开海力士有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/06 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 赵赫;王莹 |
地址: | 韩国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 减少 用于 数据处理 存储容量 方法 | ||
本发明涉及一种数据存储系统的操作方法,该数据存储系统包括处理器和多个存储装置。该操作方法包括:在多个存储装置之中选择第一存储装置、第二存储装置,以及第三存储装置,并将处理器生成的数据传输和存储到第一存储装置和第二存储装置中的第一存储操作;将第二存储装置中存储的该数据传输到第三存储装置,对该数据进行压缩并存储在第三存储装置中的第二存储操作;在第一存储操作完成后,处理器访问第一存储装置中的该数据的第一访问操作;以及在第一访问操作失败后,访问第二存储装置中的该数据的第二访问操作。
相关申请的交叉引用
本申请要求于2020年4月20日提交的申请号为10-2020-0047433的韩国专利申请的优先权,该韩国专利申请通过引用整体并入本文。
技术领域
各个实施例涉及一种数据存储系统,并且特别涉及一种减少用于大数据处理的存储容量的方法。
背景技术
大数据是指非常大且复杂的数据集。在很短的时间内,会生成高达若干个TB或若干个PB的大量数据。随着待处理的数据量增加,已经出现对一种能够在分布式服务器中存储大量数据并且快速处理所存储数据的文件系统的需求。
Hadoop是指能够对大量数据进行聚类、分发并处理的开源软件。由于Hadoop具有分析、存储和处理大量数据的功能,因此Hadoop在所有大数据系统中一直备受关注。
Hadoop使用将数据存储在若干个服务器中并通过服务器同时处理数据的方法。因此,Hadoop分布式文件系统(HDFS)将大数据划分成多个单元数据,每个单元数据具有预定大小。HDFS使用通过将所划分的单元数据自复制到多个存储装置来分发和存储所划分的单元数据的方法。例如,HDFS可以使用通过将数据冗余地复制三次来分发和存储单元数据的方法。
发明内容
各种实施例涉及一种能够最小化数据存储系统中的保留数据所占用的空间的方法,其中保留数据被冗余地复制并用于大数据处理。
在实施例中,一种数据存储系统的操作方法,该数据存储系统包括处理器和多个存储装置,该操作方法可以包括:在多个存储装置之中选择第一存储装置、第二存储装置和第三存储装置并将处理器生成的数据传输和存储到第一存储装置和第二存储装置中的第一存储操作;将在第二存储装置中存储的该数据传输到第三存储装置,对该数据进行压缩并存储在第三存储装置中的第二存储操作;在第一存储操作完成后,处理器访问第一存储装置中的该数据的第一访问操作;以及在第一访问操作失败后,访问第二存储装置中的该数据的第二访问操作。
可以并行地执行第一访问操作和第二存储操作。
操作方法可以还包括:在第一访问操作失败后,对第三存储装置中的压缩的该数据进行解压缩,并继续将解压缩的该数据存储在第三存储装置中的第三存储操作。
可以并行地执行第二访问操作和第三存储操作。
操作方法可以还包括:在第三存储操作之后,将第二存储装置重新选择为新的第一存储装置,将第三存储装置重新选择为新的第二存储装置,然后在多个存储装置之中选择新的第三存储装置的重新选择操作;以及在重新选择操作之后,通过对新的第三存储装置执行第二存储操作来将压缩的该数据存储在新的第三存储装置中的操作。
第一存储操作可以包括:将处理器生成的数据传输到第一存储装置,然后将该数据存储在第一存储装置中的第四存储操作;以及将该数据从第一存储装置传输到第二存储装置,然后将该数据存储在第二存储装置中的第五存储操作。
可以并行地执行第四存储操作和第五存储操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于爱思开海力士有限公司,未经爱思开海力士有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110065025.X/2.html,转载请声明来源钻瓜专利网。