[发明专利]网络爬虫系统及其获取资源的方法和网络资源抓取装置无效
申请号: | 200910091624.8 | 申请日: | 2009-08-26 |
公开(公告)号: | CN101635718A | 公开(公告)日: | 2010-01-27 |
发明(设计)人: | 郑伟 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/26;G06F17/30 |
代理公司: | 北京派特恩知识产权代理事务所(普通合伙) | 代理人: | 张颖玲;蒋雅洁 |
地址: | 518057广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 爬虫 系统 及其 获取 资源 方法 网络资源 抓取 装置 | ||
技术领域
本发明涉及网络资源搜索技术,尤指一种网络爬虫系统及其获取互联网/局域网上的资源的方法和网络资源抓取装置。
背景技术
随着网络应用的日益发展和普及,越来越多的资源被放置到了网络上。在承载有海量资源的网络中,用户面临的一个重大问题就是如何才能快速而准确地找到所需的资源。依靠现有的互联网搜索引擎,一方面,不能搜索到局域网的资源;另一方面,由于资源数量过于庞大,导致索引更新不及时,进而导致可能搜索不到最近更新的资源;而且,搜索出来的结果一大堆,但很多并不是想要的信息等。
于是,很多企业利用现有的开源搜索引擎来构建网络搜索引擎,而其资源的提供者正是网络爬虫。网络爬虫,是一种能自动抓取互联网或局域网上的资源的软件。网络爬虫除了给搜索引擎提供原始资源外,还有一些其它的应用,比如对某些网站定期进行监控等。
现有的网络爬虫在易用性及可定制化程度方面,还不能够满足不同用户的个性化需求,对于一些用户的需求,需要用户进行二次编程开发才能满足;现有的网络爬虫提供的可设置项较少,同样也很难满足用户的个性化搜索需求;现有的网络爬虫有的甚至没有友好的配置界面。总之,对于现有的网络爬虫,用户使用起来,不方便,不能灵活进行对网络资源的搜索。
发明内容
有鉴于此,本发明的主要目的在于提供一种网络爬虫系统,能够改善网络爬虫的易用性,使得用户方便、灵活地搜索网络资源。
本发明的另一目的在于提供一种网络爬虫系统获取资源的方法,能够改善网络爬虫的易用性,使得用户方便、灵活地搜索网络资源。
本发明的又一目的在于提供一种网络资源抓取装置,能够改善网络爬虫的易用性,使得用户方便、灵活地搜索网络资源。
为达到上述目的,本发明的技术方案是这样实现的:
一种网路爬虫系统,包括用户定制管理单元、控制单元和抓取单元,其中,
用户定制管理单元,用于提供用户操作界面,用户通过用户操作界面进行定制操作并保存定制结果;
控制单元,用于读取用户定制管理单元产生的定制结果,向抓取单元发送任务抓取通知,启动抓取任务;
抓取单元,用于对设置的任务实施抓取。
该系统还包括监控单元,用于对抓取行为进行监控,显示抓取任务的运行状态,查询抓取任务的结果。
所述用户定制管理单元的定制操作包括以下之一或任意组合:抓取深度、抓取任务的创建、抓取资源的分类、抓取资源的范围、抓取客户端设置、抓取到的资源如何保存、抓取报告设置。
所述抓取单元具体用于,根据用户设置定制操作中的抓取深度,对网络资源进行抓取;
其中,所述抓取单元包括第一队列和第二队列,第一队列用于存放当前深度的统一资源定位符URL,第二队列用于存放下个深度的URL。
所述第二个队列中存放的下个深度的URL是在对所述第一队列中的URL中的网络资源进行抓取过程中获取的。
所述抓取单元还包括一列表,用于保存当前抓取过程中得到的所有URL及其抓取状态信息。
一种网络爬虫系统获取资源的方法,基于权1所述的系统,该方法包括:
用户通过用户操作界面进行定制操作并保存定制结果;
根据用户的定制结果,启动抓取任务并对设置的任务实施抓取。
所述定制结果包括以下之一或任意组合:抓取深度、抓取任务的创建、抓取资源的分类、抓取资源的范围、抓取客户端设置、抓取到的资源如何保存、抓取报告设置。
所述抓取单元包括第一队列和第二队列,所述第一队列存放当前深度的URL,所述第二队列存放下个深度的URL;所述定制操作中包括抓取深度;所述实施抓取包括:
抓取单元从第一队列中提取URL,根据所述的URL对网络资源进行抓取;
抓取单元根据设置的网络资源的抓取深度,判断是否需要根据第二队列中的URL对网络资源进行抓取,如果是,则继续抓取。
所述抓取任务为一个或一个以上;当为一个以上抓取任务时,各个抓取任务并行执行,并且相对独立,每个抓取任务各自维护自身的抓取状态。
一种网络资源抓取装置,包括抓取单元,
所述抓取单元用于根据用户设置的抓取深度,对网络资源进行抓取;
其中,所述抓取单元包括第一队列和第二队列,第一队列用于存放当前深度的统一资源定位符URL,第二队列用于存放下个深度的URL。
所述第二个队列中存放的下个深度的URL是在对所述第一队列中的URL中的网络资源进行抓取过程中获取的。
所述抓取单元还包括一列表,用于保存当前抓取过程中得到的所有URL及其抓取状态信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910091624.8/2.html,转载请声明来源钻瓜专利网。