[发明专利]文件读取方法及装置有效
申请号: | 201811541620.0 | 申请日: | 2018-12-17 |
公开(公告)号: | CN109766318B | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 王勇 | 申请(专利权)人: | 新华三大数据技术有限公司 |
主分类号: | G06F16/172 | 分类号: | G06F16/172;G06F16/182;G06F16/13 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 450000 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 读取 方法 装置 | ||
1.一种文件读取方法,其特征在于,所述方法包括:
接收文件读取请求,所述文件读取请求中包括要读取的目标文件的标识;
根据所述目标文件的标识,在本地存储的第一索引信息包括的子文件标识与合并文件标识的映射关系中,查找与所述目标文件的标识匹配的目标子文件标识及对应的目标合并文件标识;其中,合并文件存储于Hadoop分布式文件系统HDFS、且所述合并文件中的子文件有关联关系;
根据所述目标合并文件标识,在本地存储的第二索引信息包括合并文件标识与所述HDFS的存储块标识的映射关系中,查找与所述目标合并文件标识对应的目标存储块标识;
按照预设获取条件,确定要获取的与所述目标文件关联的子文件数量,向所述HDFS发送文件获取请求,所述文件获取请求中包含所述目标存储块标识、目标子文件标识、目标合并文件标识、所述子文件数量,以使所述HDFS在与所述目标存储块标识对应的目标存储块中查找与所述目标合并文件标识对应的目标合并文件,并在所述目标合并文件中查找所述目标文件及数量为所述子文件数量的关联文件;
接收并缓存所述HDFS返回的目标文件以及关联文件,
其中,所述按照预设获取条件,确定要获取的与所述目标文件关联的子文件数量,包括:
通过用户最大等待时间、HDFS数据返回时间及读取一个子文件耗费的时间确定子文件数量。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个文件的历史访问日志,所述历史访问日志中包括多个文件的被访问时间及被访问次数;
针对所述多个文件中的每一文件,根据所述多个文件的被访问时间及被访问次数,在所述多个文件中除该文件之外的其他文件中,确定在访问该文件之后与该文件具有访问关联的至少一文件,并确定该文件的多个第一关联关系,其中,第一关联关系用于表示该文件与至少一文件中任一文件的访问关联;
根据所述多个文件中各文件的第一关联关系,获取第一关联关系数量最多的第一文件,并依据所述第一文件的多个第一关联关系,在所述多个文件中确定在所述第一文件被访问之后依次被访问的至少一关联文件;
将所述第一文件及至少一关联文件存储在第一合并文件中。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述多个文件中各文件的第一关联关系中,删除确定至少一关联文件时应用到的第一关联关系,获取剩余的第一关联关系;根据剩余的第一关联关系,获取第一关联关系数量最多的新第一文件;
在所述多个文件中,重复执行依据所述新第一文件的多个第一关联关系确定在所述新第一文件被访问之后依次被访问的至少一关联文件、将所述新第一文件及在新第一文件被访问之后依次被访问的至少一关联文件存储在新第一合并文件中的过程,直到获取不到剩余的第一关联关系。
4.根据权利要求2所述的方法,其特征在于,所述第一关联关系中记录的相关联的两个文件中的一个为前驱文件,另一个为后继文件,后继文件为在访问所述前驱文件之后被访问的文件;则所述根据所述多个文件中各文件的第一关联关系,获取第一关联关系数量最多的第一文件,并依据所述第一文件的多个第一关联关系,在所述多个文件中确定在所述第一文件被访问之后依次被访问的至少一关联文件,包括:
获取包含所述多个文件中各文件的第一关联关系的第一关联关系集合;
在所述第一关联关系集合中,获取以第一文件作为前驱文件出现次数最多的第一目标关联关系集合,并在所述第一目标关联关系集合中,获取第二关联关系,所述第二关联关系为:第一目标关联关系集合中后继文件被访问次数最多的第一关联关系;
若在所述第一关联关系集合中存在前驱文件与第二关联关系的后继文件相同的第三关联关系,从所述第三关联关系中确定后继文件出现次数最多的目标关联关系,将目标关联关系中的文件确定为关联文件;
若在所述第一关联关系集合中不存在前驱文件与第二关联关系的后继文件相同的第三关联关系时,将所述第二关联关系的后继文件确定为关联文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811541620.0/1.html,转载请声明来源钻瓜专利网。