[发明专利]一种主题网络爬虫方法、电子设备、存储介质、系统有效

申请号：	201711071026.5	申请日：	2017-11-03
公开（公告）号：	CN107908698B	公开（公告）日：	2021-04-13
发明（设计）人：	石忠民;徐叶强;钟力;殷长涛	申请（专利权）人：	广州索答信息科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/955;G06F16/35;G06F40/289;G06F40/30
代理公司：	广州市越秀区哲力专利商标事务所(普通合伙) 44288	代理人：	莫之特;罗峰
地址：	510000 广东省广州市高新技术***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种主题网络爬虫方法电子设备存储介质系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种主题网络爬虫方法，包括步骤获取主题爬虫的起始URL，将起始URL加载入种子任务队列，主题爬虫从任务队列中依次获取起始URL进行爬取，将起始URL对应的网络文档下载至本地，对网络文档进行主题相关性分类，获得主题相关文本，将主题相关文本结构化存储至数据仓库；本发明涉及电子设备与可读存储介质，用于执行一种主题网络爬虫方法；本发明还涉及一种主题网络爬虫系统；本发明通过采用word2vec的CBOW模型获得文本分词结果的词向量，采用PCA主成分分析算法对词向量进行降维，采用LSTM模型对降维的词向量进行分类，通过对爬取文档先进行分类，然后针对特定主题有选择性的对文档进行存储，提高主题与爬取文档的相关程度，增加搜索引擎覆盖率。

技术领域

本发明涉及网络爬虫技术领域，尤其涉及一种主题网络爬虫方法、电子设备、存储介质、系统。

背景技术

网络规模的迅速增长给人们带来极其丰富信息的同时，也给对信息的检索带来很大的挑战，网络爬虫是一种“自动化浏览网络”的程序，或者说是一种网络机器人，目前网络爬虫已被广泛用于互联网搜索引擎或其他类似网站，其可以自动采集所有搜索引擎或网站中其能够访问到的页面内容，使得用户能够更快的通过网络爬虫检索到需要的信息，并且通过网络爬虫采集到的页面内容可以供搜索引擎或者网站做进一步处理，以使搜索引擎或网站可以基于采集到的页面内容进行训练。目前，即使是规模十分庞大的搜索引擎对互联网信息的覆盖率不足50％，检索服务器资源远远跟不上网络规模不断增长的速度。如果依旧采用传统的信息爬取方法会使信息检索的覆盖面越来越小。

为解决上述问题，根据在信息检索时用户只对某一主题信息感兴趣的特点，本发明通过使用文本分类的方法，针对特定主题网页，提出一种主题网络爬虫方法。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种主题网络爬虫方法，通过对爬取文档进行分类，提高主题与爬取文档的相关程度，增加搜索引擎覆盖率。

本发明的目的之一采用以下技术方案实现：

一种主题网络爬虫方法，包括以下步骤：

初始化主题爬虫，获取主题爬虫的起始URL，将所述起始URL加载入种子任务队列；

文档内容爬取，所述主题爬虫从任务队列中依次获取所述起始URL进行爬取，将所述起始URL对应的网络文档下载至本地；

文本分类，对所述网络文档进行主题相关性分类，获得主题相关文本；

文本存储，将所述主题相关文本结构化存储至数据仓库。

进一步地，所述步骤文本分类包括以下步骤：

文档预处理，对所述网络文档进行分词和去除停用词处理；

文本数据转换，采用word2vec的CBOW模型将分词后的文本数据转换为词向量；