[发明专利]用于分布式系统的文件处理方法和装置有效
申请号: | 201510661956.0 | 申请日: | 2015-10-14 |
公开(公告)号: | CN105205174B | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 郑全刚 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/176 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 分布式 系统 文件 处理 方法 装置 | ||
本申请公开了用于分布式系统的文件处理方法和装置。所述方法的一具体实施方式包括:接收包括预定标识的文件;根据所述文件的大小、所述文件中预定标识的数量和所述分布式系统所包括的服务器的数量,将所述文件拆分为多个子文件,其中,每个子文件包括相同数量的预定标识;响应于所述分布式系统所包括的服务器中的至少一个服务器发送的文件处理请求,向相应服务器发送子文件以进行所述文件的并行处理。该实施方式提高了基因信息文件的处理效率,实现了负载均衡。
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及用于分布式系统的文件处理方法和装置。
背景技术
用户通常通过检测处理基因信息文件得到的处理后的文件,再根据处理后的文件来预测人们未来的患病风险。由于基因信息文件大,导致基因信息文件的检测处理耗时、繁琐。
在现有技术中,处理基因信息文件的系统通常只包括单个服务器,由此只能借助于系统中的单个服务器处理基因信息文件,导致处理时间长。此外,当基因信息文件过大时,还可能由于处理基因信息文件的系统的内存不足而导致无法处理这样的基因信息文件。
所以,为了进一步提高基因信息文件的处理效率,需要一种并行处理基因信息文件的方法。
发明内容
本申请的目的在于提出一种改进的用于分布式系统的文件处理方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种用于分布式系统的文件处理方法,所述方法包括:接收包括预定标识的文件;根据所述文件的大小、所述文件中预定标识的数量和所述分布式系统所包括的服务器的数量,将所述文件拆分为多个子文件,其中,每个子文件包括相同数量的预定标识;响应于所述分布式系统所包括的服务器中的至少一个服务器发送的文件处理请求,向相应服务器发送子文件以进行所述文件的并行处理。
在一些实施例中,所述子文件的数量为所述分布式系统所包括的服务器的数量的整数倍。
在一些实施例中,所述向相应服务器发送子文件以进行所述文件的并行处理之后,所述方法还包括:对所述相应服务器处理后的子文件进行合并,生成合并文件;将所述合并文件的访问权限设置为共享权限或者非共享权限。
在一些实施例中,所述文件为基因信息文件。
在一些实施例中,所述根据所述文件的大小、所述文件中预定标识的数量和所述分布式系统所包括的服务器的数量,将所述文件拆分为多个子文件,包括:根据所述文件的大小、所述文件中预定标识的数量和所述分布式系统所包括的服务器的数量,确定待拆分生成的子文件的数量和每个子文件包括的预定标识的数量;根据所述待拆分生成的子文件的数量和每个子文件包括的预定标识的数量,将所述文件拆分为多个子文件。
第二方面,本申请提供了一种用于分布式系统的文件处理装置,所述装置包括:接收单元,用于接收包括预定标识的文件;拆分单元,用于根据所述文件的大小、所述文件中预定标识的数量和所述分布式系统所包括的服务器的数量,将所述文件拆分为多个子文件,其中,每个子文件包括相同数量的预定标识;并行单元,用于响应于所述分布式系统所包括的服务器中的至少一个服务器发送的文件处理请求,向相应服务器发送子文件以进行所述文件的并行处理。
在一些实施例中,所述子文件的数量为所述分布式系统所包括的服务器的数量的整数倍。
在一些实施例中,所述并行单元还用于:对所述相应服务器处理后的子文件进行合并,生成合并文件;将所述合并文件的访问权限设置为共享权限或者非共享权限。
在一些实施例中,所述文件为基因信息文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510661956.0/2.html,转载请声明来源钻瓜专利网。