[发明专利]一种文件的拆分方法、装置及计算机系统在审

申请号：	202010201867.9	申请日：	2020-03-20
公开（公告）号：	CN111382128A	公开（公告）日：	2020-07-07
发明（设计）人：	张艳明;蔡苗;陈震宇;刘国华	申请（专利权）人：	中国邮政储蓄银行股份有限公司
主分类号：	G06F16/16	分类号：	G06F16/16;G06F16/172;G06F16/182
代理公司：	北京市万慧达律师事务所 11111	代理人：	顾友
地址：	100032***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文件拆分方法装置计算机系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文件的拆分方法，包括获取待拆分的数据文件；按照预设的拆分规则，将所述数据文件拆分为数据行，所述数据行包括一个或多个字段值；按照预设的识别规则，识别所述数据行包含的目标字段值；根据目标字段值与子文件的对应关系，确定所述目标字段值对应的子文件；将所述数据行写入所述对应的子文件，解决了现有技术中只能对数据文件进行均等大小或者固定行数的拆分的技术问题，实现了对拆分结果的个性化需求的支持。

技术领域

本发明涉及计算机技术领域，尤其涉及一种文件的拆分方法、装置及计算机系统。

背景技术

当某一文件过大时，对它进行的存储及读取的效率将会大大降低。为了改善这一问题，可以将过大的文件进行切分。

现有技术中，Linux操作系统提供了split命令，可用于对文件进行均等大小的串行拆分。但是该命令只能在单机进行，拆分效率受制于执行该命令的服务器的CPU及内存的状态，只能实现将文件按照均等大小或者固定行数进行的拆分，且难以实现对问题数据进行过滤等操作。同时，如果使用该技术拆分大文件时出现拆分失败的情况时，就必须从头再来，极大地影响对文件的处理效率。此外，该命令不支持个性化的拆分规则，灵活性差。

发明内容

为了解决现有技术的不足，本发明的主要目的在于提供一种文件的拆分方法、装置及计算机系统，以实现根据定制化的拆分规则对文件进行拆分。

为达到上述目的，第一方面本申请提供了一种文件的拆分方法，包括：

获取待拆分的数据文件；

按照预设的拆分规则，将所述数据文件拆分为数据行，所述数据行包括一个或多个字段值；

按照预设的识别规则，识别所述数据行包含的目标字段值；

根据目标字段值与子文件的对应关系，确定所述目标字段值对应的子文件；

将所述数据行写入所述对应的子文件。

在一些实施例中，所述按照预设的拆分规则，将所述数据文件拆分为数据行，所述数据行包括字段值包括：

读取所述数据文件，当识别到第一个预设字符时，确定所述预设字符之前的数据为一个所述数据行；

继续读取所述数据文件，当识别到所述预设字符时，确定所述预设字符与最近的前一个所述预设字符之间的数据为一个数据行。

在一些实施例中，所述按照预设的拆分规则，将所述数据文件拆分为数据行，所述数据行包括一个或多个字段值包括：