[发明专利]大数据文件的文件处理方法、装置、设备及存储介质在审

申请号：	202210594346.3	申请日：	2022-05-27
公开（公告）号：	CN114925023A	公开（公告）日：	2022-08-19
发明（设计）人：	崔海春	申请（专利权）人：	中国银行股份有限公司
主分类号：	G06F16/13	分类号：	G06F16/13;G06F16/215;G06F16/22
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	薛平;刘飞
地址：	100818 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据文件文件处理方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书涉及数据处理技术领域，提供了一种大数据文件的文件处理方法、装置、设备及存储介质，该方法包括：解压上游系统提供的数据文件；调用AWK工具对解压后的数据文件中的非目标字段进行滤除；将滤除非目标字段后的数据文件进行分类，得到每类文件类型对应的数据文件集合；对于每类文件类型对应的数据文件集合，以主键为基础将其拆分并落入多个子表中。本说明书实施例可以提高大数据文件的文件处理效率。

技术领域

本说明书涉及数据处理技术领域，尤其是涉及一种大数据文件的文件处理方法、装置、设备及存储介质。

背景技术

一些业务系统需要接收来自多个上游系统提供的数据文件。这些数据规模巨大，少则几千万，多则上亿，在使用这些数据前需要耗费大量的时间将其导入数据库，由于数据量巨大，在使用过程中对数据库造成较大压力。因此，如何高效处理大数据文件已成为目前亟待解决的技术问题。

发明内容

本说明书实施例的目的在于提供一种大数据文件的文件处理方法、装置、设备及存储介质，以提高大数据文件的文件处理效率。

为达到上述目的，一方面，本说明书实施例提供了一种大数据文件的文件处理方法，包括：

解压上游系统提供的数据文件；

调用AWK工具对解压后的数据文件中的非目标字段进行滤除；

将滤除非目标字段后的数据文件进行分类，得到每类文件类型对应的数据文件集合；

对于每类文件类型对应的数据文件集合，以主键为基础将其拆分并落入多个子表中。

本说明书实施例的大数据文件的文件处理方法中，所述调用AWK工具对解压后的数据文件中的非目标字段进行滤除，包括：