[发明专利]一种网页爬虫抓取方法及装置有效
申请号: | 201310291520.8 | 申请日: | 2013-07-11 |
公开(公告)号: | CN103336834B | 公开(公告)日: | 2017-04-12 |
发明(设计)人: | 周东 | 申请(专利权)人: | 北京京东尚科信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京邦信阳专利商标代理有限公司11012 | 代理人: | 王昭林,金玺 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 爬虫 抓取 方法 装置 | ||
技术领域
本发明涉及互联网搜索领域,特别是一种网页爬虫抓取方法及装置。
背景技术
现有的网页爬虫抓取技术,主要是通过对互联网信息进行搜索,将符合搜索条件的信息从海量的网页信息中抓取出来。例如,对舆情的数据抓取主要是通过搜索等各大搜索引擎网站以及各大微博网站,采用网页爬虫抓取技术抓取。网页爬虫抓取技术,首先需要生成对应网页地址(URL,Uniform Resource Locator)的种子,然后程序访问种子对应的网页地址,抓取网页内容。种子生成常规的方法有几种方式供选择。第一种,通过自我衍生的方式,用程序遍历一个关键词的所有搜索列表页进行全部抓取。第二种方式,人工预估一个确定的生成种子数n,只抓取关键词的搜索列表页的前n页。
但是这两种方式对于实时性要求较高的数据抓取来说都存在弊端。采用第一种方式会把很久以前的数据抓取出来,但是这些老数据不是客户需要的。同时这种方式不灵活,逻辑较为复杂,特别是当搜索的数据量较多时,对资源的浪费极大。如果采用第二种方式,也存在一个弊端,不同的关键词,搜索出来的新闻或者微博列表页的数是不同的。有的可以搜索出数百页,而有的只能搜索出几页。那这种情况下,无论人工将生成种子数定成多少值,都是不科学的。
发明内容
基于此,有必要针对现有的网页爬虫抓取技术对于生成种子数不能根据实际搜索情况进行适应性变化的技术问题,提供一种网页爬虫抓取方法及装置。
一种网页爬虫抓取方法,包括:
根据给定的搜索条件及生成种子数,生成至少一个满足搜索条件的网页地址,所述网页地址的生成数量与所述生成种子数相同;
对所述网页地址进行数据抓取,得到抓取网页内容;
根据抓取网页内容,确定满足预设统计条件的网页地址数量的统计结果;
根据所述统计结果修改所述生成种子数。
一种网页爬虫抓取装置,包括:
网页地址生成模块,用于根据给定的搜索条件及生成种子数,生成至少一个满足搜索条件的网页地址,所述网页地址的生成数量与所述生成种子数相同;
网页内容抓取模块,用于对所述网页地址进行数据抓取,得到抓取网页内容;
统计结果获取模块,用于根据抓取网页内容,确定满足预设统计条件的网页地址数量的统计结果;
生成种子数修改模块,用于根据所述统计结果修改所述生成种子数。
通过上述技术方案,本发明采用生成种子数确定生成网页地址的数量,并对网页地址进行数据抓取,得到抓取网页内容,对抓取网页内容进行统计,根据统计结果修改生成种子数。由于生成种子数确定了生成网页地址的数量,而对抓取网页内容进行统计后重新修改生成种子数,形成一种迭代方式。对于一个给定的搜索条件,其生成种子数能自动调节并适应该搜索条件。通过设定合适的统计条件,能最大程度地减少因处理不合适的数据所造成的资源浪费。
附图说明
图1为本发明实施例中网页爬虫抓取的工作流程图;
图2为本发明实施例中网页抓取的有效网页内容;
图3为本发明实施例中网页抓取的无效网页内容;
图4为本发明实施例中网页爬虫抓取的装置示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
本发明的一个实施例中,提出了一种网页爬虫抓取方法,如图1所示,包括如下步骤:
步骤S101,根据给定的搜索条件及生成种子数,生成至少一个满足搜索条件的网页地址,所述网页地址的生成数量与所述生成种子数相同。
该步骤中,搜索条件可以为单个关键词或者多个关键词的组合形成的搜索条件。满足搜索条件的网页地址的方式可以采用现有的各种网页地址生成方式。
示例:
抓取网站地址:http://news.baidu.com/
示例关键词:key=“京东618”
预估生成种子数:n=100
根据key值与n值以及baidu地址产生的搜索地址,拼接如下100个网页地址:
http://news.baidu.com/ns?bt=0&et=0&si=&rn=20&tn=news&ie=gb2312&ct=1&word=%BE%A9%B6%AB618&pn=0&cl=2
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司,未经北京京东尚科信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310291520.8/2.html,转载请声明来源钻瓜专利网。