[发明专利]基于组合预测法的主题词搜索爬虫调度方法及其系统有效
申请号: | 202110701204.8 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113536085B | 公开(公告)日: | 2023-05-19 |
发明(设计)人: | 陈智超;裴峥;孔明明 | 申请(专利权)人: | 西华大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/35;G06N3/044;G06N3/084 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 孟仕杰 |
地址: | 610036 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 组合 预测 主题词 搜索 爬虫 调度 方法 及其 系统 | ||
本发明涉及爬虫调度方法技术领域,具体是基于组合预测法的主题词搜索爬虫调度方法及其系统,包括第一获取模块、数据预处理模块、向量空间模型、分簇模块、主题词提取模块、第二获取模块、真实热度指标权重计算模块、真实热度值计算模块、更新模块、预测热度值模块和CPU分配模块;包括如下步骤:步骤1、在数据源获取数据;步骤2、数据预处理;步骤3、获取主题数据,计算真实热度指标与指标权重;步骤4、计算真实热度值;步骤5、计算下一期每个主题的预测热度值;步骤6、提取新主题词并更新数据库;步骤7、分配CPU占用率上限,获取更多高热度主题的相关数据。实现了在资源有限条件下,优先跟踪高热度主题的目的。
技术领域
本发明涉及爬虫调度方法技术领域,具体是指基于组合预测法的主题词搜索爬虫调度方法及其系统。
背景技术
跟踪主题需要爬虫不断获取该主题相关数据,如果在服务器资源有限的情况下优先跟踪热点主题,就需要实现爬虫的自主调度,优先获取热点主题相关数据。当前对于爬虫的调度方法主要有基于网站数据更新频率的爬虫调度法,基于分发URL的爬虫调度法,基于网络距离的爬虫调度法,基于节点任务分配的爬虫调度法等;其中,基于网站数据更新频率的爬虫调度方法根据数据源网站的更新频率来调度爬虫,一定程度上减少了爬虫服务器的资源开销,适合于调度更新频率较慢的一些网站爬虫;基于分发URL的爬虫调度法通过判断网页正文与用户设定的主题相似度来优先分发相似度高的URL给爬虫爬取,无法满足优先爬取未来热度高的主题这一需求;基于节点任务分配的爬虫调度法主要用于解决爬虫服务器之间的负载均衡问题,通过将大量的URL映射到哈希环上,将每个爬行节点对应到环状序列的一个片段来保证爬行节点合理分配任务,并添加虚拟节点,提高爬虫系统的鲁棒性,但仍无法满足通过热度分配任务来跟踪主题。
发明内容
基于以上问题,本发明提供了基于组合预测法的主题词搜索爬虫调度方法及其系统,通过预测各主题未来热度,调度高热度主题对应的爬虫,从而获取更多高热度数据,实现了在资源有限条件下,优先跟踪高热度主题的目的。
为解决以上技术问题,本发明采用的技术方案如下:
基于组合预测法的主题词搜索爬虫调度系统,包括
第一获取模块,根据用户设置的关键词利用主题词搜索爬虫在数据源中获取数据;
数据预处理模块,用于将第一获取模块获取的数据进行预处理;
向量空间模型,用于将预处理后的文本数据变为由特征词权重构成的多维向量;
分簇模块,用于对文本数据进行分簇处理,得到的每一簇作为一个主题;
主题词提取模块,用于分别提取每个簇的主题词并存入数据库;
第二获取模块,提取数据库中的主题词,根据提取的主题词,利用爬虫从数据源获取数据;
解析模块,用于将第二获取模块获取的数据解析出每条文本数据相应的转发量、点赞量和评论量;
真实热度指标权重计算模块,通过解析模块解析的转发量、点赞量和评论量作为各条文本数据的真实热度指标并计算各指标权重;
更新模块,将第二获取模块获取的数据通过数据预处理模块、向量空间模型和分簇模块处理后,得到每个簇的特征词,将各簇包含的部分特征词作为主题词并更新在原来的数据库中;
真实热度值计算模块,利用解析模块解析出的每条文本数据相应的转发量、点赞量和评论量以及真实热度指标权重计算模块得到的指标权重计算每条文本数据的真实热度,再根据分簇模块得到的主题,对各主题包含的文本数据真实热度求均值,求得的均值结果作为各主题的真实热度值;
预测热度值模块,用于预测下一期每个主题词的预测热度值;
CPU分配模块,服务器根据预测热度值赋予各主题对应的爬虫相应的CPU占用率上限,并开启相应数量的进程数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西华大学,未经西华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110701204.8/2.html,转载请声明来源钻瓜专利网。