[发明专利]一种文件处理方法及装置在审
申请号: | 202211377003.8 | 申请日: | 2022-11-04 |
公开(公告)号: | CN115617759A | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 顾呈恩;陈仁伟 | 申请(专利权)人: | 平安银行股份有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/174;G06F9/50 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 吕爱霞 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 处理 方法 装置 | ||
本申请提供了一种文件处理方法及装置,该文件处理方法包括:获取待处理文件;对待处理文件进行拆分处理,得到多个拆分文件;通过文件处理集群对每个拆分文件进行多线程并发处理,得到拆分处理数据;根据拆分处理数据获取待处理文件的处理数据。可见,该方法能够快速处理文件数据,提升读写效率,从而提升文件处理速度,提升文件处理效率。
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种文件处理方法及装置。
背景技术
目前,随着互联网的不断发展,计算机需要处理的文件数据也越来越多,计算机需要将文件内容通过一定的逻辑处理后写入到数据库中。现有的文件处理方法通常是通过单个进程来实现将文件写入到数据库。然而,在实践中发现,当需要处理的文件过大时,单机读取数据和写数据效率低,从而影响文件处理速度,文件处理效率低。
发明内容
本申请实施例的目的在于提供一种文件处理方法及装置,能够快速处理文件数据,提升读写效率,从而提升文件处理速度,提升文件处理效率。
本申请实施例第一方面提供了一种文件处理方法,包括:
获取待处理文件;
对所述待处理文件进行拆分处理,得到多个拆分文件;
通过文件处理集群对每个所述拆分文件进行多线程并发处理,得到拆分处理数据;
根据所述拆分处理数据获取所述待处理文件的处理数据。
在上述实现过程中,该方法可以先获取待处理文件;然后对待处理文件进行拆分处理,得到多个拆分文件;再通过文件处理集群对每个拆分文件进行多线程并发处理,得到拆分处理数据;最后,再根据拆分处理数据获取待处理文件的处理数据。可见,该方法能够快速处理文件数据,提升读写效率,从而提升文件处理速度,提升文件处理效率。
进一步地,所述通过文件处理集群对每个所述拆分文件进行多线程并发处理,得到拆分处理数据,包括:
当预设了文件幂的处理选项时,检测所述拆分文件是否存在重复数据;
如果是,则通过所述文件幂对所述重复数据进行去重处理,得到去重后的待处理拆分文件;
通过文件处理集群对所述待处理拆分文件进行多线程并发处理,得到拆分处理数据。
进一步地,所述通过文件处理集群对每个所述拆分文件进行多线程并发处理,得到拆分处理数据,包括:
在通过文件处理集群对每个所述拆分文件进行多线程并发处理时,判断是否出现有文件处理中途停止的情况;
如果是,则确定文件处理断点位置和未处理完成的拆分文件;
通过所述文件处理集群中其他正常运行的设备对所述未处理完成的拆分文件,从所述文件处理断点位置进行断点续传处理,得到拆分处理数据。
进一步地,所述方法还包括:
若判断出未出现有文件处理中途停止的情况,则当所述多线程并发处理完成时,获取所述文件处理集群对每个所述拆分文件进行多线程并发处理得到的拆分处理数据。
进一步地,所述根据所述拆分处理数据获取所述待处理文件的处理数据,包括:
根据所述拆分文件将所述拆分处理数据进行汇总,得到所述待处理文件的处理数据。
本申请实施例第二方面提供了一种文件处理装置,所述文件处理装置包括:
第一获取单元,用于获取待处理文件;
拆分单元,用于对所述待处理文件进行拆分处理,得到多个拆分文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211377003.8/2.html,转载请声明来源钻瓜专利网。