[发明专利]一种数据处理方法、装置、存储介质和设备在审
申请号: | 202111026654.8 | 申请日: | 2021-09-02 |
公开(公告)号: | CN113704268A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 仪明锋;赵玮;李亮;李聪依 | 申请(专利权)人: | 中国农业银行股份有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/242;G06F16/215;G06F16/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 周初冬 |
地址: | 100005 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 存储 介质 设备 | ||
本申请公开了一种数据处理方法、装置、存储介质和设备,获取主档表中预存的各个全量数据,对各个全量数据进行分类,得到多个全量数据分组。从每个全量数据分组所示的各个全量数据中,选取数据日期最早的全量数据,作为有效数据。对各个有效数据进行分类,得到多个有效数据分组。对于每个有效数据分组,按照数据日期由早到晚的顺序,对各个有效数据进行排序,得到有效数据序列。对于每个有效数据序列,为有效数据序列所示的每个有效数据增加属性。基于各个有效数据,及每个有效数据的生效日期和失效日期,构建数据拉链表。利用本申请所示方案,利用数据拉链表实现数据的存储,基于数据拉链表自身的特性,能有效减少数据存储对应硬件资源的消耗。
技术领域
本申请涉及大数据领域,尤其涉及一种数据处理方法、装置、存储介质和设备。
背景技术
随着大数据技术的广泛应用,大型应用程序的业务数据量快速增长。在某些场景下,例如金融交易数据,客户数据等,需要实现对历史数据的分析,提取数据变化的趋势,进行业务发展的预测或风险预警。为此,如何在有限的存储空间和计算能力下实现历史数据的存储和查询,成为本领域的研究热点。
目前,常用的数据存储方式为:按照某时间粒度(通常为每天)全量保存切片数据。然而,基于现有的数据存储方式,会有生成较多的冗余数据,海量的冗余数据则会占用大量的存储空间,从而消耗大量硬件资源,使得硬件成本增加。
发明内容
本申请提供了一种数据处理方法、装置、存储介质和设备,目的在于减少硬件资源的消耗。
为了实现上述目的,本申请提供了以下技术方案:
一种数据处理方法,包括:
获取主档表中预存的各个全量数据;所述全量数据包括主键、字段和数据日期;
对各个所述全量数据进行分类,得到多个全量数据分组;主键相同、且字段相同的多个所述全量数据均划分到同一全量数据分组中;
从每个所述全量数据分组所示的各个全量数据中,选取数据日期最早的全量数据,作为每个所述全量数据分组的有效数据;
对各个所述有效数据进行分类,得到多个有效数据分组;主键相同的多个有效数据均划分到同一有效数据分组中;
对于每个所述有效数据分组,按照数据日期由早到晚的顺序,对所述有效数据分组所示的各个有效数据进行排序,得到与所述有效数据分组对应的有效数据序列;
对于每个所述有效数据序列,为所述有效数据序列所示的每个有效数据增加属性;其中,所述属性包括生效日期和失效日期;所述生效日期与所述有效数据所示的数据日期相同;排在所述有效数据序列中最后一位的有效数据的失效日期设为预设日期;排在所述有效数据序列中第n-1位的有效数据的失效日期设为第一日期;n=1,2,3,...,m-1;m代表所述有效数据序列中所包含有效数据的数量;所述第一日期比排在所述有效数据序列中第n位的有效数据的生效日期晚一天;
基于各个所述有效数据,以及每个有效数据的生效日期和失效日期,构建数据拉链表。
可选的,从每个所述全量数据分组所示的各个全量数据中,选取数据日期最早的全量数据,作为每个所述全量数据分组的有效数据,包括:
对于每个所述全量数据分组,按照数据日期由早到晚的顺序,对所述全量数据分组所示的各个全量数据进行排序,得到与每个所述全量数据分组对应的全量数据序列;
对于每个所述全量数据序列,选取排在所述全量数据序列中首位的全量数据,作为每个所述全量数据序列的有效数据。
可选的,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业银行股份有限公司,未经中国农业银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111026654.8/2.html,转载请声明来源钻瓜专利网。