[发明专利]一种基于网页爬取的爬虫技术在审
申请号: | 201310040090.2 | 申请日: | 2013-02-01 |
公开(公告)号: | CN103970788A | 公开(公告)日: | 2014-08-06 |
发明(设计)人: | 尹科 | 申请(专利权)人: | 北京英富森信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100190 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网页 爬虫 技术 | ||
1.一种基于网页爬取的爬虫技术,其特征在于,初始化URL链接地址后,包括以下步骤:
1)均衡分配爬虫线程从给定的入口起在运行队列读取排列在队首的URL链接地址;
2)判断所述URL链接地址是否存在,是则停止爬取,否则,爬取所述URL链接地址放入完成队列;
3)对放入所述完成队列的所述URL链接地址对应的网页进行提取;
4)对所述提取的网页中的URL链接地址过滤,留取有效URL链接地址写入运行队列,返回步骤1)重复以上步骤。
2.根据权利要求1所述一种基于网页爬取的爬虫技术,其特征在于,当所述排列在队首的URL长度超过预设阈值时,所述爬虫线程停止对所述对排列在队首的URL进行爬取。
3.根据权利要求1或2所述一种基于网页爬取的爬虫技术,其特征在于,所述爬虫线程从运行队列爬取排列在队首的URL时,采取广度优先法进行爬取,即先从所述URL的起始网页开始,抓取所述起始网页中所有链接的网页,然后从抓取的所述所有链接的网页中再选择一个网页,抓取所述选择的网页中的所有链接页面,直至所述所有链接的网页中所有网页中的所有链接页面全部抓取完毕。
4.根据权利要求1所述一种基于网页爬取的爬虫技术,其特征在于,所述步骤2)中,所述爬取所述URL链接地址的具体步骤如下:
爬虫线程开启后,首先由中心爬虫将待爬取的起始页URL链接地址读取到爬虫缓存,然后根据爬取优先顺序对放入到所述爬虫缓存中所述起始页URL链接地址中的内容进行抓取、解析、抽取所述内容中的详细URL链接地址放入URL存储容器中,最后将抽取到的详细URL链接地址进行再次爬取。
5.根据权利要求4所述一种基于网页爬取的爬虫技术,其特征在于,所述对抽取的详细URL链接地址进行抽取时,对抽取到的所述详细URL链接地址进行去重、增量操作,以免出现重复爬取同一个详细URL网址的情况。
6.根据权利要求4所述一种基于网页爬取的爬虫技术,其特征在于,所述对抽取到的详细URL链接地址进行抽取的步骤如下:
A、从所述URL存储容器中读取待爬取的详细URL链接地址,并对所述详细URL链接地址进行正确性校验,将校验正确的待爬取详细URL链接地址放入爬虫缓存中;
B、从互联网中爬取指定详细URL链接地址,将爬取到的网页信息内容进行相应解码、解压缩;
C、解析爬取到的所述网页信息,抽取出网页中的URL链接地址,并对所述网页中的URL链接地址进行校验、去重操作;然后重复以上步骤A-C。
7.根据权利要求1所述一种基于网页爬取的爬虫技术,其特征在于,所述爬虫线程从给定的入口起在运行队列读取排列在队首的URL链接地址的步骤之前,还包括以下步骤:
在接收任务请求后,把任务拆分成任务分片,每个任务分片仅包含一个网站,每个任务分片均衡分配给由多个爬虫并行执行。
8.根据权利要求1所述一种基于网页爬取的爬虫技术,其特征在于,在爬虫线程执行任务过程中,为每个爬虫线程的处理进度保存状态,每取一批网页都要记录本线程最大的网页ID,记录到数据库里,进程重启后读取IDID,恢复爬虫系统的爬取环境,接着抓后面的页面。
9.根据权利要求1所述一种基于网页爬取的爬虫技术,其特征在于,采用Hash算法均衡分配爬虫线程的任务,即每一个URL经过Hash函数计算得哈希值,不同的哈希值对应不同的爬虫,将一个URL交给Hash函数计算出的对应爬虫进行处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京英富森信息技术有限公司,未经北京英富森信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310040090.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:聚酯废水中回收乙醛和乙二醇的系统
- 下一篇:电容式触摸屏触点定位方法和终端