[发明专利]一种面向海量小文件的用户热点数据访问预测方法有效
申请号: | 201810174542.9 | 申请日: | 2018-03-02 |
公开(公告)号: | CN108446340B | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 朱东杰;杜海文;李晓芳;刘海青;章江山;王玉华;孙云栋;张凯 | 申请(专利权)人: | 哈尔滨工业大学(威海);威海翰宝网络科技有限公司 |
主分类号: | G06F16/172 | 分类号: | G06F16/172;G06F16/182;G06K9/62 |
代理公司: | 北京君恒知识产权代理事务所(普通合伙) 11466 | 代理人: | 张璐;黄启行 |
地址: | 264200*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 海量小文件 存储系统 访问文件 热点数据 文件访问 关联性 预测 缓存 用户访问数据 上下文访问 读取效率 类别序列 全部文件 文件特征 访问 相似度 聚类 日志 预取 算法 分析 | ||
本发明公开了一种面向海量小文件的用户热点数据访问预测方法,从用户访问数据的特点入手,根据文件访问的关联性特点,使用用户相关的分布式海量小文件存储系统文件访问日志,训练Skip‑Gram模型,对文件的上下文访问特征进行提取,使用K‑means算法对文件特征聚类,对访问相似度高的文件进行集中分析,训练GRU模型,对文件间的关联性进行分析,并根据用户当前访问文件所属类别序列进行预测,将用户未来可能访问文件类别中的全部文件预取至缓存,减少了系统的I/O次数,整体上提升了分布式海量小文件存储系统读取效率。
技术领域
本发明涉及计算机领域,尤其涉及一种面向海量小文件的用户热点数据访问预测方法。
背景技术
智能设备和电子商务的快速发展带来了小文件数量的急剧增加。根据国际数据中心的报告,世界已进入ZB时代,全球数据量在两年内翻番。小文件是指文件大小在10KB到512KB之间。在大多数情况下,这些海量的小文件被保存在分布式存储系统中,以便用户可以使用任何可以访问网络的设备访问这些文件。云存储系统减少了用户对本地存储容量的需求,并且保证用户访问的文件均为最新副本。但是,在海量的小文件存储环境下,用户的文件访问操作呈现出高并发特性。
传统的分布式存储系统,如HDFS和Openstack Swift主要为大文件设计。他们大多使用直接读取模式来请求文件,而没有预取机制的设计。这会导致代理服务器必须在收到文件访问请求时随时请求存储服务器。而且,在并发访问量较大的情况下,为了保证高吞吐量,存储系统中的节点需要并行传输大量数据,带宽利用率较高。
海量的小文件的一个重要特点是它变冷的速度非常块——即所谓的Cold Data冷数据,研究表明:经常使用的数据只占大数据的1%到5%;另一方面“长尾效应”使传统缓存机制失效。如何针对大数据中这5%的热点数据建立相关的预测模型,并设计合理的海量小文件缓存机制,有效地解决长尾效应,是海量小文件云存储性能优化的难点。
因此,如何在海量小文件环境下,通过分析用户访问规律,设计一个高效的文件读取策略仍然是一个迫切的问题。
发明内容
针对上述现有技术存在的问题,本发明提供一种面向海量小文件的用户热点数据访问预测方法,解决了分布式存储系统在海量小文件环境下读取效率过低问题。
本发明提供的一种面向海量小文件的用户热点数据访问预测方法,其改进之处在于,所述方法包括如下步骤:
(1)读取分布式海量小文件存储系统产生的文件访问日志,得到文件访问历史序列;
(2)将所述文件访问历史序列进行预处理,得到用户相关的文件访问日志,构造训练样本数据和测试样本数据;
(3)使用所述训练样本数据对Skip-Gram模型进行训练,将训练完成后的Skip-Gram模型使用所述测试样本数据进行测试,根据测试结果,对所述Skip-Gram模型参数进行调优(即调整模型参数),并将调优后的Skip-Gram模型作为文件特征提取模型;
(4)使用所述文件特征提取模型对所述训练样本数据和所述测试样本数据进行特征提取,得到文件特征向量;使用K-means算法对所述文件特征向量进行聚类,通过修改所述K-means算法的参数实现聚类方法调优,确定文件与类别关系映射;
(5)根据所述文件与类别关系映射,将所述训练样本数据的文件访问数据转化为和文件类别访问训练数据,所述测试样本数据的文件访问数据转化为文件类别访问测试数据;
(6)使用所述文件类别访问训练数据对GRU模型进行训练,将训练完成后的GRU模型使用所述文件类别访问测试数据进行测试,并根据测试结果,对所述GRU模型参数进行调优,并将调优后的GRU模型、调优后的Skip-Gram模型和调优后的K-means算法进行组合,作为面向海量小文件的用户热点数据访问预测模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海);威海翰宝网络科技有限公司,未经哈尔滨工业大学(威海);威海翰宝网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810174542.9/2.html,转载请声明来源钻瓜专利网。