[发明专利]一种面向海量小文件的用户热点数据访问预测方法有效
申请号: | 201810174542.9 | 申请日: | 2018-03-02 |
公开(公告)号: | CN108446340B | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 朱东杰;杜海文;李晓芳;刘海青;章江山;王玉华;孙云栋;张凯 | 申请(专利权)人: | 哈尔滨工业大学(威海);威海翰宝网络科技有限公司 |
主分类号: | G06F16/172 | 分类号: | G06F16/172;G06F16/182;G06K9/62 |
代理公司: | 北京君恒知识产权代理事务所(普通合伙) 11466 | 代理人: | 张璐;黄启行 |
地址: | 264200*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向海量小文件的用户热点数据访问预测方法,从用户访问数据的特点入手,根据文件访问的关联性特点,使用用户相关的分布式海量小文件存储系统文件访问日志,训练Skip‑Gram模型,对文件的上下文访问特征进行提取,使用K‑means算法对文件特征聚类,对访问相似度高的文件进行集中分析,训练GRU模型,对文件间的关联性进行分析,并根据用户当前访问文件所属类别序列进行预测,将用户未来可能访问文件类别中的全部文件预取至缓存,减少了系统的I/O次数,整体上提升了分布式海量小文件存储系统读取效率。 | ||
搜索关键词: | 海量小文件 存储系统 访问文件 热点数据 文件访问 关联性 预测 缓存 用户访问数据 上下文访问 读取效率 类别序列 全部文件 文件特征 访问 相似度 聚类 日志 预取 算法 分析 | ||
【主权项】:
1.一种面向海量小文件的用户热点数据访问预测方法,其特征在于,所述方法包括如下步骤:(1)读取分布式海量小文件存储系统产生的文件访问日志,得到文件访问历史序列;(2)将所述文件访问历史序列进行预处理,得到用户相关的文件访问日志,构造训练样本数据和测试样本数据;(3)使用所述训练样本数据对Skip‑Gram模型进行训练,将训练完成后的Skip‑Gram模型使用所述测试样本数据进行测试,根据测试结果,对所述Skip‑Gram模型参数进行调优,并将调优后的Skip‑Gram模型作为文件特征提取模型;(4)使用所述文件特征提取模型对所述训练样本数据和所述测试样本数据进行特征提取,得到文件特征向量;使用K‑means算法对所述文件特征向量进行聚类,通过修改所述K‑means算法的参数实现聚类方法调优,确定文件与类别关系映射;(5)根据所述文件与类别关系映射,将所述训练样本数据的文件访问数据转化为和文件类别访问训练数据,所述测试样本数据的文件访问数据转化为文件类别访问测试数据,其转化方法包括:预先将所述文件与类别关系映射读取至内存中,读取所述训练样本数据的每一个文件名元素,在所述文件与类别关系映射中查找文件名对应的分类,将对应的文件分类序列输出到所述文件类别访问训练数据;读取所述测试样本数据的每一个文件名元素,在所述文件与类别关系映射中查找文件名对应的分类,将对应的文件分类序列输出到所述文件类别访问测试数据;(6)使用所述文件类别访问训练数据对GRU模型进行训练,将训练完成后的GRU模型使用所述文件类别访问测试数据进行测试,并根据测试结果,对所述GRU模型参数进行调优,并将调优后的GRU模型、调优后的Skip‑Gram模型和调优后的K‑means算法进行组合,作为面向海量小文件的用户热点数据访问预测模型;(7)将所述面向海量小文件的用户热点数据访问预测模型部署至代理节点;输入新的用户文件访问请求,所述面向海量小文件的用户热点数据访问预测模型输出下一时刻用户待访问的文件类别;代理节点 根据所述文件与类别关系映射,将用户待访问的文件从底层存储设备缓存至代理节点进行缓存。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海);威海翰宝网络科技有限公司,未经哈尔滨工业大学(威海);威海翰宝网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810174542.9/,转载请声明来源钻瓜专利网。