[发明专利]有效筛分资源的爬虫系统在审
申请号: | 201710398058.X | 申请日: | 2017-05-31 |
公开(公告)号: | CN107291838A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 肖雪松 | 申请(专利权)人: | 成都明途科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 有效 筛分 资源 爬虫 系统 | ||
1.有效筛分资源的爬虫系统,其特征在于,包括网络资源收集模块,所述网络资源收集模块包括爬虫分配装置和爬虫执行单元,所述网络资源收集模块连接有爬虫依赖模块和网页分解模块,所述网页分解模块连接有工作数据库,所工作收集库连接有临时增量数据库,所述临时增量数据库连接有更新增量数据库,所述更新增量数据库连接有本地文件子系统,所述本地文件子系统连接一个分布式文件子系统;所述爬虫分配装置包括初始单元、网页下载模块、关闭单元;
所述初始单元用于为网络资源收集准备必要的存储空间及系统开销;
所述网页下载模块用于根据目标网络资源的数据类型选择不同爬虫程序收集目标网络资源的数据;
所述关闭单元用于在收集装置收集到所需要的目标数据后释放系统开销以及在收集装置出现异常时进行异常处理;
所述爬虫依赖模块用于配置网络资源收集模块与目标网络资源之间的依赖关系;网络资源收集模块能够通过爬虫依赖模块建立的依赖关系,通过爬虫分配装置配置相应爬虫执行单元执行资源收集;
所述网页分解模块用于网页的分解、去除广告信息、去除噪声;
所述工作数据库用于和当前用户兴趣内容做相似度比较,根据相似度排序为用户推送内容;
所述更新增量数据库用于存储一个时间周期内网站更新的内容;
所述临时增量数据库用于存储接着上次爬取断点爬取到的内容;
所述本地文件子系统用于存储所述爬虫服务器收到的所述网页数据;
所述分布式文件子系统,用于同步所述本地文件子系统中的网页数据。
2.根据权利要求1所述的有效筛分资源的爬虫系统,其特征在于,所述本地文件子系统包括URL过滤器,所述URL过滤器用于对收集的网页数据进行重排。
3.根据权利要求2所述的有效筛分资源的爬虫系统,其特征在于,所述URL过滤器为基于二进制数组bitSet的过滤器。
4.根据权利要求1所述的有效筛分资源的爬虫系统,其特征在于,所述网络资源收集模块连接有控制模块,所述控制模块用于存储各个爬行节点的状态信息、全局爬行信息和各个爬行节点的任务,这些信息的数据结构采用Key-value数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都明途科技有限公司,未经成都明途科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710398058.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于领域适应性的网络文本的分词方法
- 下一篇:分享图片的方法和设备