[发明专利]一种基于机器学习的智能Web代理缓存系统及方法在审
申请号: | 201910584223.X | 申请日: | 2019-06-30 |
公开(公告)号: | CN110276042A | 公开(公告)日: | 2019-09-24 |
发明(设计)人: | 杨勤 | 申请(专利权)人: | 浪潮卓数大数据产业发展有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/951 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 214029 江苏省无锡市滨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于机器 缓存系统 智能 缓存 学习 数据吞吐量 访问过程 缓存内容 便捷性 高效性 客户端 内存 闲置 保存 | ||
1.一种基于机器学习的智能Web代理缓存系统,其特征在于:包括监控组件,预处理组件,离线训练组件,缓存分类器,页面爬虫组件,在线交互组件和插件生成组件七部分;
其中,监控组件负责利用Jmeter对用户电脑内存和CPU进行监控,形成用户内存使用率和CPU占用率的趋势图;
所述在线交互组件负责缓存,与用户进行直接交互,得到用户访问的原始数据;
所述预处理组件负对将用户访问的原始数据进行缓存分类,自然语言处理NLP分词和分词过滤;
所述离线训练组件则负责在CPU较为空闲,内存占用较少的时候工作,对已有缓存内容进行处理,不断学习和训练优化,从而不断调整缓存分类器;
所述缓存分类器根据离线训练组件经多次训练和学习得到的相关参数进行设置,并将其分类;
所述页面爬虫组件负责将对应关键字的一些网页爬取出来,按照时间排序,将最新的500条网页记录保存于缓存中;
所述插件生成组件负责整合和封装监控组件,预处理组件,离线训练组件,缓存分类器,页面爬虫组件和在线交互组件的内容,并且经过浏览器兼容性处理,形成通用的浏览器插件。
2.根据权利要求1所述的基于机器学习的智能Web代理缓存系统的缓存方法,其特征在于:在智能Web缓存机制下,结合Web访问过程中数据吞吐量大的特点,针对每个用户的客户端硬件实际情况,合理利用CPU和内存,在Web缓存过程中利用闲置CPU资源,采用基于机器学习的方法对已缓存内容进行训练和学习,为Web用户提前保存对应领域的内容到缓存中,实现在访问过程中一次请求就能读到缓存的高效性和便捷性。
3.根据权利要求2所述的基于机器学习的智能Web代理缓存系统的缓存方法,其特征在于:结合每个用户不同的计算机资源,合理分配,将一部分闲置资源用于预缓存处理;在用户已有缓存内容的条件下,利用机器学习算法对缓存内容进行训练,不断优化学习模型,达到智能化,并提前缓存与用户偏好相关的内容;在缓存内容和用户点击浏览内容不断丰富的情况下,利用闲置CPU和内存,对缓存模型进行调整,从而使预缓存更加贴合用户实际需求。
4.根据权利要求3所述的基于机器学习的智能Web代理缓存系统的缓存方法,其特征在于,包括以下步骤:
第一步,插件生成组件将监控组件,预处理组件,离线训练组件,缓存分类器,页面爬虫组件和在线交互组件进行整合和封装,经过浏览器兼容性处理,形成通用的浏览器插件;
第二步,监控组件利用Jmeter自动对用户电脑内存和CPU进行监控,形成用户内存使用率和CPU占用率的趋势图;
第三步,在线交互组件与用户进行直接交互,得到户访问的原始数据,即浏览器文本,离线训练组件处于待工作状态;当用户电脑内存和CPU使用率低时,触发缓存预处理组件和离线训练组件;
第四步,预处理组件将浏览器文本进行缓存分类,并针对每个类别的文件进行自然语言处理NLP分词,保存于分词库中,针对一段时间内分词库中的数据进行分词过滤,以减少数据的噪声;
第五步,离线训练组件在用户计算机资源空闲时,将过滤后的词汇库数据作为学习数据集参与预缓存训练;
第六步,离线训练组件经过不断地训练和学习,将相关参数设置于缓存分类器中,缓存分类器给出分类结果,所述分类结果为用户在某一时间段偏好浏览的内容关键字;
第七步,得到用户某一时间段偏好浏览的内容关键字后,页面爬虫组件预先将对应关键字的网页爬取出来并保存于缓存中,供用户在访问对应资源时,第一次访问便可以读到缓存内容。
5.根据权利要求4所述的基于机器学习的智能Web代理缓存系统及方法,其特征在于:所述第二步中,当内存使用率小于四分之一时,在趋势图上以标志A标明,5分钟标注一次;当CPU占用率小于四分之一时,在趋势图上以标志B标明,5分钟标注一次;离线训练组件不直接参与Web用户的交互,当监控趋势图中A标志和B标志在1个小时内同时出现时,触发缓存预处理组件和离线训练组件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮卓数大数据产业发展有限公司,未经浪潮卓数大数据产业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910584223.X/1.html,转载请声明来源钻瓜专利网。