[发明专利]一种面向海量小文件的用户热点数据访问预测方法有效
申请号: | 201810174542.9 | 申请日: | 2018-03-02 |
公开(公告)号: | CN108446340B | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 朱东杰;杜海文;李晓芳;刘海青;章江山;王玉华;孙云栋;张凯 | 申请(专利权)人: | 哈尔滨工业大学(威海);威海翰宝网络科技有限公司 |
主分类号: | G06F16/172 | 分类号: | G06F16/172;G06F16/182;G06K9/62 |
代理公司: | 北京君恒知识产权代理事务所(普通合伙) 11466 | 代理人: | 张璐;黄启行 |
地址: | 264200*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 海量小文件 存储系统 访问文件 热点数据 文件访问 关联性 预测 缓存 用户访问数据 上下文访问 读取效率 类别序列 全部文件 文件特征 访问 相似度 聚类 日志 预取 算法 分析 | ||
1.一种面向海量小文件的用户热点数据访问预测方法,其特征在于,所述方法包括如下步骤:
(1)读取分布式海量小文件存储系统产生的文件访问日志,得到文件访问历史序列;
(2)将所述文件访问历史序列进行预处理,得到用户相关的文件访问日志,构造训练样本数据和测试样本数据;
(3)使用所述训练样本数据对Skip-Gram模型进行训练,将训练完成后的Skip-Gram模型使用所述测试样本数据进行测试,根据测试结果,对所述Skip-Gram模型参数进行调优,并将调优后的Skip-Gram模型作为文件特征提取模型;
(4)使用所述文件特征提取模型对所述训练样本数据和所述测试样本数据进行特征提取,得到文件特征向量;使用K-means算法对所述文件特征向量进行聚类,通过修改所述K-means算法的参数实现聚类方法调优,确定文件与类别关系映射;
(5)根据所述文件与类别关系映射,将所述训练样本数据的文件访问数据转化为和文件类别访问训练数据,所述测试样本数据的文件访问数据转化为文件类别访问测试数据,其转化方法包括:预先将所述文件与类别关系映射读取至内存中,读取所述训练样本数据的每一个文件名元素,在所述文件与类别关系映射中查找文件名对应的分类,将对应的文件分类序列输出到所述文件类别访问训练数据;读取所述测试样本数据的每一个文件名元素,在所述文件与类别关系映射中查找文件名对应的分类,将对应的文件分类序列输出到所述文件类别访问测试数据;
(6)使用所述文件类别访问训练数据对GRU模型进行训练,将训练完成后的GRU模型使用所述文件类别访问测试数据进行测试,并根据测试结果,对所述GRU模型参数进行调优,并将调优后的GRU模型、调优后的Skip-Gram模型和调优后的K-means算法进行组合,作为面向海量小文件的用户热点数据访问预测模型;
(7)将所述面向海量小文件的用户热点数据访问预测模型部署至代理节点;输入新的用户文件访问请求,所述面向海量小文件的用户热点数据访问预测模型输出下一时刻用户待访问的文件类别;代理节点 根据所述文件与类别关系映射,将用户待访问的文件从底层存储设备缓存至代理节点进行缓存。
2.如权利要求1所述的用户热点数据访问预测方法,其特征在于,步骤(1)中,每两小时读取分布式海量小文件存储系统产生的文件访问日志后,将访问日志清空。
3.如权利要求1所述的用户热点数据访问预测方法,其特征在于,步骤(2)所述进行预处理的方法包括:
顺序读取所述文件访问日志,根据用户信息和访问时间间隔对所述文件访问日志进行分离,将对所述文件访问日志的访问序列处理为各个用户的子访问序列,并按照75%、25%的比例划分为训练样本数据和测试样本数据;
在进行分离时,根据请求IP来源不同,对不同用户的文件访问日志进行分离,再将相同用户间隔10秒以上的文件访问之间进行分离。
4.如权利要求1所述的用户热点数据访问预测方法,其特征在于,步骤(3)中,所述Skip-Gram模型采用的上下文窗口参数为5条文件访问记录,输入层维度为文件数量,隐藏层采用输入层维度数为行,输出层维度数为列的矩阵,输出层维度为300,在输出层使用softmax函数来执行回归;
所述Skip-Gram模型的输入层采用one-hot,隐藏层采用查找表结构进行优化,输出层输出文件上下文特征向量,即维度数的一维数组,实现对文件上下文特征的提取。
5.如权利要求1所述的用户热点数据访问预测方法,其特征在于,步骤(4)中,所述K-means算法为非监督学习中的聚类算法,其输入为文件特征向量,输出为文件与类别关系映射;
所述K-means算法的初始质心采用随机化的方式进行指定,K取值为300-500,输出的文件与类别关系映射使用Key-Value键值对的格式,使用空格隔开。
6.如权利要求1所述的用户热点数据访问预测方法,其特征在于,步骤(6)中,所述GRU模型的隐藏层采用GRU,并设有两个门:更新门和重置门。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海);威海翰宝网络科技有限公司,未经哈尔滨工业大学(威海);威海翰宝网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810174542.9/1.html,转载请声明来源钻瓜专利网。