[发明专利]一种用于爬取页面的方法和设备在审
申请号: | 201310078316.8 | 申请日: | 2013-03-12 |
公开(公告)号: | CN103226568A | 公开(公告)日: | 2013-07-31 |
发明(设计)人: | 王江;刘浩 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 罗朋;周建华 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 页面 方法 设备 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于爬取页面的技术。
背景技术
当前用于爬取网络页面的方法,是采用随机的广度优先策略。因此,对于定向爬取,则存在扩散速度慢,扩散方向和扩散速度难以控制,从而难以在期望的时间内扩散到期望的页面等问题。例如对于垂直站点中的数据进行爬取时,若数据的各个维度分布在不同页面上,则会存在严重的数据爬取不完全的情况;同时,由于在爬取过程中无法记录当前数据的爬取状态信息,因此对于爬取后不完整的数据,无法判断该数据的不完整是由于数据本身的不完备,或是对该页面的爬取尚未完成。
发明内容
本发明的目的是提供一种用于爬取页面的方法与设备。
根据本发明的一个方面,提供了一种用于爬取页面的方法,其中,该方法包括以下步骤:
x根据已爬取页面,获取对应候选爬取页面的候选页面标识信息;
y根据所述候选爬取页面与所述已爬取页面的关联性信息,将所述候选页面标识信息添加至对应的待爬页面集合,其中,所述待爬页面集合包括一个或多个待爬取页面的页面标识信息;
其中,该方法还包括:
a根据所述待爬页面集合,确定待爬取页面的目标爬取标识信息;
b爬取所述目标爬取标识信息所对应的目标页面。
根据本发明的另一方面,还提供了一种用于爬取页面的爬取设备,其中,该设备包括:
候选标识获取装置,用于根据已爬取页面,获取对应候选爬取页面的候选页面标识信息;
分组装置,用于根据所述候选爬取页面与所述已爬取页面的关联性信息,将所述候选页面标识信息添加至对应的待爬页面集合,其中,所述待爬页面集合包括一个或多个待爬取页面的页面标识信息;
其中,该设备还包括:
爬取标识获取装置,用于根据所述待爬页面集合,确定待爬取页面的目标爬取标识信息;
爬取装置,用于爬取所述目标爬取标识信息所对应的目标页面。
与现有技术相比,本发明通过根据已爬取页面,获取对应候选爬取页面的候选页面标识信息,并根据所述候选爬取页面与所述已爬取页面的关联性信息,将所述候选页面标识信息添加至对应的待爬页面集合;根据所述待爬页面集合,确定待爬取页面的目标爬取标识信息,爬取所述目标爬取标识信息所对应的目标页面;从而根据所述关联性信息,有效的控制了爬取的调度行为,以实现爬取调度的可配置性,使得爬取能够目的性的扩散,控制爬虫在网页间移动的方向和速度,提高了垂直爬虫的爬取效率,保证了爬取数据的完整性。
而且,本发明还可以根据所述目标页面,以及所述已爬取页面,确定对应的数据对象,从而能够将同类的数据单元作为完整的数据对象进行爬取,保证了爬取数据的完整性。
而且,所述待爬页面集合包括基于先进后出策略的第一待爬子集,从而将所述第一待爬子集中时序上最后被添加的页面标识信息,作为所述目标爬取标识信息;进一步地,还可以根据将所述候选页面标识信息添加至所述第一待爬子集的第一触发条件,将所述候选页面标识信息添加至所述第一待爬集合;从而实现基于先进后出策略的爬取方法,控制爬虫在网页间移动的方向和速度,提高了垂直爬虫的爬取效率。
而且,所述待爬页面集合还包括基于时限处理策略的第二待爬子集,从而当所述第一待爬子集为空时,从所述第二待爬子集中确定所述目标爬取标识信息;进一步地,还可以根据将所述候选页面标识信息添加至所述第二待爬子集的第二触发条件,将所述候选页面标识信息添加至所述第二待爬集合;从而实现基于时限处理策略的爬取方法,与所述先进后出策略结合,控制爬虫在网页间移动的方向和速度,提高了垂直爬虫的爬取效率。
而且,本发明还可以根据调整触发条件,对所述待爬页面集合进行相应调整;进一步地,当述待爬页面集合包括所述第一待爬集合与所述第二待爬集合,则所述调整触发条件包括所述第二待爬集合中第一个页面标识信息的爬取时限信息超出当前时间;从而实现了对待爬页面集合的灵活控制,实现爬取调度的可配置性,提高了垂直爬虫的爬取效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的一种用于爬取页面的爬取设备示意图;
图2示出根据本发明一个优选实施例的一种用于爬取页面的爬取设备示意图;
图3示出根据本发明另一个方面的一种用于爬取页面的方法流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310078316.8/2.html,转载请声明来源钻瓜专利网。