[发明专利]基于组合预测法的主题词搜索爬虫调度方法及其系统有效

专利信息
申请号: 202110701204.8 申请日: 2021-06-23
公开(公告)号: CN113536085B 公开(公告)日: 2023-05-19
发明(设计)人: 陈智超;裴峥;孔明明 申请(专利权)人: 西华大学
主分类号: G06F16/951 分类号: G06F16/951;G06F16/35;G06N3/044;G06N3/084
代理公司: 成都弘毅天承知识产权代理有限公司 51230 代理人: 孟仕杰
地址: 610036 四川省*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 组合 预测 主题词 搜索 爬虫 调度 方法 及其 系统
【权利要求书】:

1.基于组合预测法的主题词搜索爬虫调度系统,其特征在于:包括

第一获取模块,根据用户设置的关键词利用主题词搜索爬虫在数据源中获取数据;

数据预处理模块,用于将第一获取模块获取的数据进行预处理;

向量空间模型,用于将预处理后的文本数据变为由特征词权重构成的多维向量;

分簇模块,用于对文本数据进行分簇处理,得到的每一簇作为一个主题;

主题词提取模块,用于分别提取每个簇的主题词并存入数据库;

第二获取模块,提取数据库中的主题词,根据提取的主题词,利用主题词搜索爬虫从数据源获取数据;

解析模块,用于将第二获取模块获取的数据解析出每条文本数据相应的转发量、点赞量和评论量;

真实热度指标权重计算模块,通过解析模块解析的转发量、点赞量和评论量作为各条文本数据的真实热度指标并计算各指标权重;

更新模块,将第二获取模块获取的数据通过数据预处理模块、向量空间模型和分簇模块处理后,得到每个簇的特征词,将各簇包含的部分特征词作为主题词并更新在原来的数据库中;

真实热度值计算模块,利用解析模块解析出的每条文本数据相应的转发量、点赞量、评论量和真实热度指标权重计算模块得到的指标权重计算每条文本数据的真实热度,再根据分簇模块得到的主题,对各主题包含的文本数据真实热度求均值,求得的均值结果作为各主题的真实热度值;

预测热度值模块,用于预测下一期每个主题词的预测热度值;所述预测热度值模块是通过真实热度值计算模块获取的各主题真实热度值来得到各主题的预测热度值

CPU分配模块,服务器根据预测热度值赋予各主题对应的主题词搜索爬虫相应的CPU占用率上限,并开启相应数量的进程数;所述CPU分配模块是根据组合预测热度值赋予各主题对应爬虫的权重值,服务器根据权重值调整主题对应爬虫的CPU占用率上限。

2.基于组合预测法的主题词搜索爬虫调度方法,其特征在于,包括如下步骤:

步骤1、设置关键词,根据关键词利用主题词搜索爬虫在数据源获取数据;

步骤2、对数据进行预处理,将预处理后的文本数据变为由特征词的权重构成的多维向量,并划分该多维向量成簇,将每个簇定义为主题,每个主题内包含的部分特征词作为主题词存进数据库;

步骤3、提取数据库中的主题词,然后按照主题的个数编写相应数量的主题词搜索爬虫从数据源上获取主题数据,从爬取的数据中解析出转发量、点赞量和评论量作为真实热度指标并利用层次分析法确定各指标权重;

步骤4、通过步骤3获取的各条文本数据的转发量、点赞量和评论量及真实热度指标权重来计算每条文本数据的真实热度值,再根据步骤2得到的主题,对各主题包含的文本数据的真实热度求均值,求得的均值作为各主题的真实热度值;

步骤5、通过步骤4获得的各主题的真实热度值拟合出各主题真实热度值随期数的变化曲线,利用组合预测法获取下一期每个主题的预测热度值;

步骤6、将步骤3获取的数据经过步骤1~步骤2处理后,提取新的主题词并更新数据库;

步骤7、根据主题词的预测热度值,更新相应主题词搜索爬虫的权重值,服务器根据权重值调整各主题词对应主题词搜索爬虫的CPU占用率上限,并重复步骤3~步骤7。

3.根据权利要求2所述的基于组合预测法的主题词搜索爬虫调度方法,其特征在于:所述步骤2中,还包括如下:

步骤21、数据清洗,利用正则表达式去除数据中中文以外的字符;

步骤22、中文分词,将获取的每一条数据正文切分成词语;

步骤23、去停用词,将步骤22中切分好的词语去除其中的停用词;

步骤24、使用向量空间模型,将文本数据变成由特征词权重构成的多维向量。

4.根据权利要求2所述的基于组合预测法的主题词搜索爬虫调度方法,其特征在于:所述步骤2中,还包括如下:

采用聚类分析方法,将每个数据单独成簇,按照相似性度量标准将相似性最高的数据先进行合并,依照数据相似度从高到低的顺序依次合并成簇,簇间的相似度随着簇的合并而降低,直到达到相似度阈值停止,将每一簇称为一个主题,将每个主题内包含的特征词作为主题词存进数据库中,形成主题词数据库。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西华大学,未经西华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110701204.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top