[发明专利]一种基于数据关联性的分布式文件系统元数据预取方法有效
申请号: | 201810681784.7 | 申请日: | 2018-06-27 |
公开(公告)号: | CN108920600B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 许胤龙;陈友旭;李诚;李永坤;吕敏 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/13;G06F16/172 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 汪祥虬 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于数据关联性的分布式文件系统元数据预取方法,特征是采取设计数据关联性的提取方式和存储结构、预取关联文件的元数据、数据关联性的动态反馈和数据关联性的动态更新步骤;与传统的分布式文件系统元数据访问方式相比,本发明提出了轻量级的数据关联性的语法分析方式,对文件系统元数据结构加以拓展以支撑数据关联性,通过预取方式提前将关联文件元数据缓存在客户端本地,从而减少了客户端和元数据服务器跨网络交互次数,同时结合客户端的动态反馈机制根据文件访问模式动态调整关联文件的紧密程度,并利用阈值控制进一步提高预取的精确度,减少客户端缓存空间的占用,降低关联文件元数据访问的响应延迟,提高元数据服务性能。 | ||
搜索关键词: | 一种 基于 数据 关联性 分布式 文件系统 方法 | ||
【主权项】:
1.一种基于数据关联性的分布式文件系统元数据预取方法,其特征在于包括以下步骤:第一步:设计数据关联性的提取方式和存储结构根据文件类型对应的语法格式,查询对应的引用或者链接语法表达式,并基于查询到的引用或者链接语法表达式设计目标正则表达式;当客户端的应用程序修改文件的数据时,利用设计的目标正则表达式对文件的数据内容进行语法分析来提取引用或者链接关联文件的文件路径名,同时记录关联文件路径名出现在数据部分的偏移量和路径名的长度;采用键值对的数据结构存储数据关联性,其中键值对的键是关联文件索引节点的编号,用来唯一标志文件,由元数据服务器根据关联文件的路径名检索对应文件索引节点内容获得,占用8个字节;键值对的值包含三个部分,分别是范围在[0,1]的关联分值、关联文件路径名的长度和关联文件路径名在数据部分的偏移量,分别占用4个字节、4个字节和8个字节;扩展分布式文件系统索引节点的元数据结构,将存储数据关联性的键值对存储在文件索引节点的扩展属性中以使得分布式文件系统支撑数据关联性;客户端对修改的数据内容分析完成后,发送数据关联性同步信息给元数据服务器;元数据服务器接收到同步信息后,持久化更新后的数据关联性到存储设备中;第二步:预取关联文件的元数据当元数据服务器处理客户端发起的目标文件元数据操作请求时,首先在元数据服务器的元数据缓存中获取目标文件的目录项和索引节点;当获取到目标文件的索引节点后,检索索引节点的每一条扩展属性,获取目标文件的数据关联性;设定一个范围在[0,1]的阈值T表示目标文件与预取的关联文件紧密程度的最低值,当目标文件与关联文件的关联分值的值超过阈值T时才进行预取;遍历目标文件的每一条数据关联性,当键值对中的值部分的关联分值的值大于阈值T时,从中提取关联文件索引节点的编号,并根据检索到的关联文件索引节点的编号在元数据缓存中查询关联文件的目录项和索引节点内容;当关联分值的值小于或等于阈值T时,跳过本条数据关联性,进行下一条数据关联性的预取操作;元数据服务器构建回复消息以返回目标文件和关联文件的元数据给客户端,将目标文件的目录项和索引节点内容添加到回复消息中,同时元数据服务器将第二步查询的关联文件的目录项和索引节点内容添加到回复消息中,并为回复消息设置预取标记为1,表示此次构建的回复消息包含关联文件的元数据;如果回复消息中不包含预取内容,则为回复消息设置预取标记为0;然后元数据服务器将这一条回复消息发送给客户端;第三步:数据关联性的动态反馈当客户端接收到元数据服务器发送的回复消息时,首先判断回复消息是否设置了预取标记;如果没有设置预取标记,则解析回复请求内容获得目标文件的目录项和索引节点,并将解析出的目标文件的目录项和索引节点缓存在客户端的内存中,同时链接目标文件的索引节点到目录项中,建立目标文件路径的逻辑结构;如果设置了预取标记,则在解析回复请求内容获得目标文件的目录项和索引节点之后,进一步解析回复请求的后续内容获得关联文件的目录项和索引节点,同时链接关联文件的索引节点到关联文件的目录项中,建立关联文件路径的逻辑结构,并缓存在客户端的内存中;记录预取的关联文件信息,包含关联文件的索引节点编号、触发预取的目标文件索引节点编号、预取时间和访问标记,并添加到客户端的预取反馈表中;如果预取的关联文件被后续的客户端请求访问,则将预取反馈表中对应的关联文件的访问标记设置为1;如果预取的关联文件没有被后续的客户端请求访问,则将预取反馈表中对应的关联文件的访问标记设置为0;设定一个遍历客户端预取反馈表的时间间隔Time,范围在[0,N];客户端每隔Time秒逐条遍历预取反馈表中的所有记录并反馈预取的关联文件的访问信息给元数据服务器;如果当前时间的值减去正在遍历的关联文件的预取时间的值大于时间间隔Time,则构建客户端预取反馈请求,并将关联文件的索引节点编号、触发预取的目标文件的索引节点编号、访问标记添加到反馈请求中;如果当前时间减去关联文件的预取时间小于或等于时间间隔Time,则跳过本条记录,遍历预取反馈表中的下一条预取记录;当预取反馈表中所有的记录均被遍历一次后,客户端将构建的预取反馈请求发送给元数据服务器;第四步:数据关联性的动态更新当元数据服务器接收到客户端发送的预取反馈请求时,对请求中的预取记录逐条处理;首先根据每条预取记录的关联文件索引节点编号和触发预取的目标文件索引节点编号查询关联文件的索引节点信息和触发预取的目标文件的索引节点信息,并在触发预取的目标文件的索引节点信息中检索对应关联文件的数据关联性,获得对应关联文件的键值对;设定一个范围在[0,1]的调整分值s表示每次目标文件与关联文件紧密程度的调整粒度,如果此条预取记录中的访问标记为1,将键值对的关联分值增加s;如果词条预取记录中的访问标记为0,将键值对的关联分值减少s;逐条遍历反馈请求中的预取记录,根据预取的关联文件的访问情况对触发预取的目标文件的索引节点中的数据关联性进行更新,最终持久化到元数据服务器的存储设备中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810681784.7/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置