[发明专利]大数据文件的文件处理方法、装置、设备及存储介质在审
申请号: | 202210594346.3 | 申请日: | 2022-05-27 |
公开(公告)号: | CN114925023A | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 崔海春 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/215;G06F16/22 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 薛平;刘飞 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据文件 文件 处理 方法 装置 设备 存储 介质 | ||
本说明书涉及数据处理技术领域,提供了一种大数据文件的文件处理方法、装置、设备及存储介质,该方法包括:解压上游系统提供的数据文件;调用AWK工具对解压后的数据文件中的非目标字段进行滤除;将滤除非目标字段后的数据文件进行分类,得到每类文件类型对应的数据文件集合;对于每类文件类型对应的数据文件集合,以主键为基础将其拆分并落入多个子表中。本说明书实施例可以提高大数据文件的文件处理效率。
技术领域
本说明书涉及数据处理技术领域,尤其是涉及一种大数据文件的文件处理方法、装置、设备及存储介质。
背景技术
一些业务系统需要接收来自多个上游系统提供的数据文件。这些数据规模巨大,少则几千万,多则上亿,在使用这些数据前需要耗费大量的时间将其导入数据库,由于数据量巨大,在使用过程中对数据库造成较大压力。因此,如何高效处理大数据文件已成为目前亟待解决的技术问题。
发明内容
本说明书实施例的目的在于提供一种大数据文件的文件处理方法、装置、设备及存储介质,以提高大数据文件的文件处理效率。
为达到上述目的,一方面,本说明书实施例提供了一种大数据文件的文件处理方法,包括:
解压上游系统提供的数据文件;
调用AWK工具对解压后的数据文件中的非目标字段进行滤除;
将滤除非目标字段后的数据文件进行分类,得到每类文件类型对应的数据文件集合;
对于每类文件类型对应的数据文件集合,以主键为基础将其拆分并落入多个子表中。
本说明书实施例的大数据文件的文件处理方法中,所述调用AWK工具对解压后的数据文件中的非目标字段进行滤除,包括:
调用AWK工具中定义的过滤条件脚本,过滤掉解压后的数据文件中的非目标字段。
本说明书实施例的大数据文件的文件处理方法中,在所述调用AWK工具对解压后的数据文件中的非目标字段进行滤除之前,还包括:
调用AWK工具中定义的校验脚本,对滤除解压后的数据文件进行非空校验、长度校验和非法字符校验;
当解压后的数据文件未通过校验时,将该数据文件存入指定路径并抛出异常。
本说明书实施例的大数据文件的文件处理方法中,所述主键包括用户标识,所述对于每类文件类型对应的数据文件集合,以主键为基础将其拆分并落入多个子表中,包括:
从当前类文件类型的数据文件集合中取出一个数据文件;
判断该数据文件的主键是否为十进制数字;
如果该数据文件的主键为十进制数字,则根据公式d=(m%(n*10))/10计算该数据文件中每条记录所归属的分库;
根据公式t=(m%(n*10))%10计算该数据文件中每条记录在对应分库中所归属的分表;
将该数据文件的记录存入指定临时文件目录;
当所述指定临时文件目录中的记录满足批量入库条件时,将所述指定临时文件目录中的记录批量写入对应的分库分表中;
其中,d为数据文件中每条记录所归属的分库标识,t为数据文件中每条记录在对应分库中所归属的分表,m为数据文件中每条记录的用户标识,n为每类文件类型的分库总数,*表示相乘,%表示取模。
本说明书实施例的大数据文件的文件处理方法中,所述对于每类文件类型对应的数据文件集合,以主键为基础将其拆分并落入多个子表中,还包括:
对于每类文件类型对应的数据文件集合,当其内数据文件的主键不是十进制数字时,在进行分库分表前先将其主键转换为十进制数字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210594346.3/2.html,转载请声明来源钻瓜专利网。