[发明专利]有效筛分资源的爬虫系统在审
申请号: | 201710398058.X | 申请日: | 2017-05-31 |
公开(公告)号: | CN107291838A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 肖雪松 | 申请(专利权)人: | 成都明途科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 有效 筛分 资源 爬虫 系统 | ||
技术领域
本发明涉及一种爬虫系统,具体涉及有效筛分资源的爬虫系统。
背景技术
搜索引擎作为网络信息搜寻的工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。1994年,爬虫程序被应用到索引程序中,Yahoo、Google等相继出现。但至今,功能再强大的搜索引擎都仍然存在信息丢失、更新率不高、精确率不高等问题。用户需要更快、更准、更方便、更有效的查询服务成为搜索引擎技术发展研究追求的目标。
在这种情况下定向抓取相关网页资源的主题爬虫应运而生。主题爬虫又称为聚焦爬虫,为自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。作为一种智能的Web爬虫,它的基本工作过程与一般的爬虫是相似的。与一般爬虫不同的是,主题爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
面对越来越庞大的网络资源,提高爬虫程序的速度已成为当前搜索领域的一个焦点问题,现有的爬虫程序筛选的网络资源较多,筛选量较多,筛选的内容也没有一个较好的标准,因此在筛选时的速度较慢,效率也较低。
发明内容
本发明所要解决的技术问题是现有的爬虫系统筛选速度较慢,效率低,目的在于提供有效筛分资源的爬虫系统,解决现有的爬虫系统的筛选速度慢效率也较低的问题。
本发明通过下述技术方案实现:
有效筛分资源的爬虫系统,包括网络资源收集模块,所述网络资源收集模块包括爬虫分配装置和爬虫执行单元,所述网络资源收集模块连接有爬虫依赖模块和网页分解模块,所述网页分解模块连接有工作数据库,所工作收集库连接有临时增量数据库,所述临时增量数据库连接有更新增量数据库,所述更新增量数据库连接有本地文件子系统,所述本地文件子系统连接一个分布式文件子系统;所述爬虫分配装置包括初始单元、网页下载模块、关闭单元;
所述初始单元用于为网络资源收集准备必要的存储空间及系统开销;
所述网页下载模块用于根据目标网络资源的数据类型选择不同爬虫程序收集目标网络资源的数据;
所述关闭单元用于在收集装置收集到所需要的目标数据后释放系统开销以及在收集装置出现异常时进行异常处理;
所述爬虫依赖模块用于配置网络资源收集模块与目标网络资源之间的依赖关系;网络资源收集模块能够通过爬虫依赖模块建立的依赖关系,通过爬虫分配装置配置相应爬虫执行单元执行资源收集;
所述网页分解模块用于网页的分解、去除广告信息、去除噪声;
所述工作数据库用于和当前用户兴趣内容做相似度比较,根据相似度排序为用户推送内容;
所述更新增量数据库用于存储一个时间周期内网站更新的内容;
所述临时增量数据库用于存储接着上次爬取断点爬取到的内容;
所述本地文件子系统用于存储所述爬虫服务器收到的所述网页数据;
所述分布式文件子系统,用于同步所述本地文件子系统中的网页数据。
有效筛分资源的爬虫系统,所述本地文件子系统包括URL过滤器,所述URL过滤器用于对收集的网页数据进行重排。
有效筛分资源的爬虫系统,所述URL过滤器为基于二进制数组bitSet的过滤器。
有效筛分资源的爬虫系统,所述网络资源收集模块连接有控制模块,所述控制模块用于存储各个爬行节点的状态信息、全局爬行信息和各个爬行节点的任务,这些信息的数据结构采用Key-value数据。
进一步的,本系统分别创建工作数据库、更新增量数据库和临时增量数据库,其中工作数据库用于和当前用户兴趣内容做相似度比较,根据相似度排序为用户推送内容;更新增量数据库用户存储一个时间周期内(通常是一天)网站更新的内容;临时数据库用于存储接着上次爬取断点爬取到的内容;通过爬虫模块爬取网络上的网页;提取网页的主要内容,重新生成适合客户端阅读的网页;对内容文本部分进行分词,得到内容的URL、标题、标签、来源、时间、词频等属性;判断该内容是否是网站更新的内容;如果该内容是网站最近更新的内容,将计算得到的内容属性存入更新增量数据库;否则,存入临时增量数据库;
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明有效筛分资源的爬虫系统,本系统根据人们的兴趣内容做相似度比较,在筛选时通过人们的兴趣爱好进行筛选,筛选的内容更有效率,并且这样筛选的内容也相对较少,因此筛选的速度更快,更加便于使用;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都明途科技有限公司,未经成都明途科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710398058.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于领域适应性的网络文本的分词方法
- 下一篇:分享图片的方法和设备