[发明专利]客户端起源信息关联感知的元数据预取方法及系统有效
申请号: | 201510632669.7 | 申请日: | 2015-09-28 |
公开(公告)号: | CN105279240B | 公开(公告)日: | 2018-07-13 |
发明(设计)人: | 邓玉辉;吴国锦 | 申请(专利权)人: | 暨南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 陈燕娴 |
地址: | 510632 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 元数据 客户端 起源信息 关联 日志记录 预取 缓存 元数据服务器 内核空间 感知 客户 文件访问请求 缓存命中率 计算元数据 元数据服务 定时更新 关联分数 实时收集 训练数据 用户空间 关联性 下载 传输 更新 访问 | ||
1.客户端起源信息关联感知的元数据预取方法,其特征在于:所述方法包括以下步骤:
S1、在客户端的内核空间实时收集起源信息日志记录,采用Netlink协议从内核空间传输到用户空间,并存储到起源信息数据库中;其中,所述起源信息包括进程开始与结束时间的进程起源信息和进程操作文件的I/O请求起源信息,具体为:
在客户端的内核空间,拦截exit、exit_group系统调用,收集进程开始与结束时间的进程起源信息日志记录;拦截open、read、write、stat、lstat、readdir系统调用,收集进程操作文件的I/O起源信息日志记录;
所述进程起源信息日志记录规范为一个三元组,如下:
ProcProv(processID,start_time,end_time);其中,ProcProv表示进程号为processID的进程,其生命周期区间为[start_time,end_time];
所述I/O请求起源信息日志记录规范为一个五元组,如下:
IOProv(time,processID,userID,operationID,fid);其中,time表示记录发生的时间,processID表示进程的pid号,userID表示操作进程的用户的ID号,operationID表示系统调用的唯一识别号,fid表示每个文件路径分配该文件的的唯一识别号;
S2、在客户端选取一部分已收集的起源信息日志记录,作为元数据的关联性训练数据,采用随时间衰减的关联度计算技术计算元数据两两之间的关联分数,对于每个元数据,选取关联分数较高的关联关系,得到最初的强关联列表;
S3、当客户端发生文件访问请求时,查询所述文件的元数据是否在客户端本地的元数据缓存中,若是,则执行步骤S5,若否,则执行步骤S4;
S4、在客户端的强关联列表中,预取多个与所述文件的元数据强关联的元数据,一并打包向元数据服务器发送请求,从元数据服务器下载相应的元数据,更新客户端本地的元数据缓存;
S5、从客户端本地的元数据缓存中读取相应的元数据信息;
S6、根据新增的起源信息日志记录,采用随时间衰减的关联度计算技术定时计算元数据两两之间的关联分数,对于每个元数据,按照关联分数排序,选取关联分数最高的几个关联元数据,更新元数据强关联列表,为以后的元数据预取提供选择;
步骤S2和S6中,所述计算元数据两两之间的关联分数,具体包括:
1)根据ProcProv记录,提取起源信息窗口列表Plist;
2)对于起源信息窗口列表Plist的每个起源信息窗口,从IOProv记录中读取I/O请求的记录列表;
3)计算I/O请求的记录列表中两两fid的关联分数,具体为:
在一个起源信息窗口中,对于一个IOProv与其若干个后驱IOProv的关联分数,给定一个初始关联分数S,经过与后驱IOProv的时间差衰减,得到新的关联分数S作为两个fid的关联分数,一直与后驱IOProv的时间衰减,直至S小于或等于0才停止。
2.根据权利要求1所述的客户端起源信息关联感知的元数据预取方法,其特征在于:步骤S1中,所述起源信息数据库为Tokyo Cabinet键值数据库;其中,存储ProcProv记录的数据为B+树形结构的键值数据,主键为<start_time,processID>;存储IOProv记录的数据为B+树形结构的键值数据,主键为<time,fid>。
3.根据权利要求1所述的客户端起源信息关联感知的元数据预取方法,其特征在于:步骤1)中所述根据ProcProv记录,提取起源信息窗口列表Plist,具体为:
根据ProcProv记录的进程开始与结束时间,每当两个进程的生命周期相交,则合并成一个更大的进程生命周期,直到没有相交的进程的生命周期,则这个进程生命周期为一个起源信息窗口,最后得到一个起源信息窗口列表Plist。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510632669.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于正态分布的互联网大数据挖掘方法和系统
- 下一篇:字符串处理方法和装置