[发明专利]一种Spark存储方法及系统有效

申请号：	201910236924.4	申请日：	2019-03-27
公开（公告）号：	CN109947778B	公开（公告）日：	2022-04-19
发明（设计）人：	李栋	申请（专利权）人：	联想（北京）有限公司
主分类号：	G06F16/22	分类号：	G06F16/22
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	古利兰;王宝筠
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 spark 存储方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开公开了一种Spark存储方法及系统，方法包括：获取待存储数据，基于待存储数据确定分区策略，基于分区策略将待存储数据存储至对应的分区。本公开通过分区策略对数据进行自动重新分区存储，降低了后续数据的操作量，进而提高了整体计算效率。

技术领域

本公开涉及数据处理技术领域，尤其涉及一种Spark存储方法及系统。

背景技术

Spark(计算引擎)存储是将数据通过自有的列式存储方式存储于内存或本地磁盘，得益于这种列式存储方式，大大提高了数据加载与计算效率。在实际应用中，Spark存储中数据的分区是与存储前的数据分区是一致的，即存储过程只是按照数据原来的分区方式，依次将每个分区的数据加载并做存储，整个过程不会对数据原有分区策略做任何变动。这样的存储方式并没有过多考虑到后续数据计算的需求，比如加载计算，尽管存储本身能加快数据的加载，但是依然无法避免由于数据密钥在不同分区中的无规则存储带来的拖拽类操作。

因此，如何提高整体计算效率，是一项亟待解决的问题。

发明内容

有鉴于此，本公开提供一种Spark存储方法，通过对数据进行自动重新分区存储，降低了后续数据的操作量，进而提高了整体计算效率。

本公开提供了一种Spark存储方法，包括：

获取待存储数据；

基于所述待存储数据确定分区策略；

基于所述分区策略将所述待存储数据存储至对应的分区。

优选地，所述基于所述待存储数据确定分区策略包括：

获取所述待存储数据指定的重分区密钥和分区参数；

基于所述指定的重分区密钥和分区参数对所述待存储数据进行重分区计算，得到所述分区策略。

优选地，所述分区参数包括：指定分区参数和系统分区参数。

优选地，所述基于所述待存储数据确定分区策略包括：