[发明专利]一种主题相关的分布式网络爬虫系统无效
申请号: | 201210060805.6 | 申请日: | 2012-03-09 |
公开(公告)号: | CN102646129A | 公开(公告)日: | 2012-08-22 |
发明(设计)人: | 吴黎兵;柯亚林;何炎祥;刘楠 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 薛玲 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 主题 相关 分布式 网络 爬虫 系统 | ||
技术领域
本发明涉及网络资源搜索技术,尤其涉及到一种主题相关的分布式网络爬虫系统。
背景技术
随着互联网上信息的海量增长,传统的搜索引擎面临着索引规模、实时更新速度和个性化等许多方面的挑战。因此,特定主题和个性化搜索的主题网络爬虫应运而生。当前,主题网络爬虫的研究已经成为Web信息挖掘的研究热点和难点。
传统网络爬虫的目标是尽可能地采集信息页面,它并不关心页面采集的顺序和采集的页面是否符合特定的主题。这样导致大量的系统资源和网络带宽浪费在抓取主题无关的网页上。主题网络爬虫则是尽可能快地采集用户感兴趣的网页。它可以对整个Web按主题分块采集,并将不同块的采集结果整合到一起,以提高整个Web的采集覆盖率和页面利用率。
同时,虽然主题网络爬虫能够提高系统资源和网络带宽利用率,但是随着网络规模和复杂程度的指数增长,依赖计算机单机处理能力的集中式网络爬虫无法满足快速获取大量资源的需求。分布式网络爬虫由可并行获取资源的多个节点组成,它能够克服单一网络爬虫物理性能的瓶颈影响,极大地提高整个爬虫系统的下载速度。分布式网络爬虫系统的爬行节点可以随时加入和退出,具有极好的鲁棒性和扩展性。
根据现有技术,主题相关的分布式网络爬虫系统相关定义如下:
定义1: 网络爬虫是一个自动获取网页的程序,它是搜索引擎从Web上下载网页的重要组成部分。传统网络爬虫是从一个或若干初始网页的超链接开始,获取初始网页上的超链接列表;在抓取网页的过程中,不断从当前页面上抽取新的超链接放入待爬行队列,直到满足系统的停止条件。
定义2: 主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的超链接,保留主题相关的超链接并将其放入待抓取的超链接队列中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页超链接,并重复上述过程,直到满足系统的停止条件。
定义3:分布式网络爬虫是一个系统,它包括多个子节点,每个子节点都承担一定的网页抓取任务;并且相互协作,共同完成总的抓取任务。
定义4:主题相关的分布式网络爬虫系统是指一种多个节点协同合作的分布式网络爬虫,它根据用户指定的主题,自动抓取主题相关的网页。
但是,具体如何实现主题相关的分布式网络爬虫系统,还有很多技术问题,比如各个节点如何协同,本领域尚未出现解决方案。
发明内容
本发明的目的在于提供一种主题相关的分布式网络爬虫系统,它能够使多个节点协同合作,共同完成网页抓取任务,提高下载性能,使得用户能够获取感兴趣的网页。
为了达到上述目的,本发明采用的技术方案为一种主题相关的分布式网络爬虫系统,包含一个控制节点,多个爬行节点,一个网页数据库,一个网页分析器,一个主题链接存储器;
所述主题链接存储器,用于存放系统未完成抓取的超链接;
所述控制节点,用于从主题链接存储器中提取超链接,去除其中已经被系统抓取过的超链接,然后将未被系统抓取过的超链接分配给爬行节点,并控制是否终止系统运行;
所述爬行节点,用于接收控制节点分配的超链接,然后下载超链接标识的网页,并且将网页存储在网页数据库中;
所述网页数据库,用于存放爬行节点抓取的网页,用于网页分析器作进一步的分析;
所述网页分析器,用于定期从网页数据库中读取爬行节点下载的最新网页,对网页进行内容分析,计算网页及网页内所含超链接的主题相关度,然后根据主题相关度将相关的超链接存放到主题链接存储器中,将每个网页的主题相关度存于网页数据库中。
而且,所述主题链接存储器中设有HighQueue队列和LowQueue队列两个子模块;HighQueue队列存储主题相关度大于预设阈值T的超链接,LowQueue队列存储主题相关度不大于预设阈值T的超链接;系统工作流程包括以下步骤,
步骤1,用户定义初始超链接集,定义主题相关的关键词以及主题相关度的阈值T;
步骤2,爬虫系统的控制节点从初始超链接集中提取超链接,然后将超链接分配给爬虫系统的各个爬行节点;
步骤3,爬行节点抓取超链接指定的网页并且将其存储在网页数据库中;
步骤4,网页分析器从网页数据库中读取网页,抽取网页上的超链接,并且根据主题相关的关键词进行主题相关度计算,将主题相关度大于阈值T的超链接存入主题链接存储器的HighQueue队列中,将主题相关度不大于阈值T的超链接存入主题链接存储器的LowQueue队列中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210060805.6/2.html,转载请声明来源钻瓜专利网。