[发明专利]应用于单台多核处理器主机的多线程网络爬虫执行方法有效
申请号: | 201310661466.1 | 申请日: | 2013-12-09 |
公开(公告)号: | CN103678571B | 公开(公告)日: | 2017-01-25 |
发明(设计)人: | 冯铮;赵中英;刘明君;何一峰;冯圣中 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙)44316 | 代理人: | 沈祖锋,郝明琴 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出的应用于单台多核处理器主机的多线程网络爬虫执行方法包括步骤S10、创建网页爬取线程、网页分析线程以及URL种子线程;S20、将URL种子载入URL种子缓冲队列;S30、从URL种子缓冲队列中取出URL种子块,遍历URL条目进行网页爬取;S40、将网页内容及其URL封装载入网页缓冲队列;S50、通过查询哈希表进行URL分析,将URL载入待爬取URL列表;S60、待爬取URL列表中元素达到最大值时写入URL缓冲队列;S70、从URL缓冲队列中取出URL列表并重排,封装成URL种子块插入URL种子缓冲队列。本发明可避免额外的线程切换或等待、误判率极低,一定程度上解决了“礼貌”爬取问题。 | ||
搜索关键词: | 应用于 多核 处理器 主机 多线程 网络 爬虫 执行 方法 | ||
【主权项】:
一种应用于单台多核处理器主机的多线程网络爬虫执行方法,包括以下步骤:S10、基于主机处理器核数以及线程数量创建网页爬取线程、网页分析线程以及URL种子线程,申请哈希表空间;S20、获取包含URL列表的初始URL种子文件,将所述初始URL种子文件中的URL种子载入URL种子缓冲队列;S30、网页爬取线程从URL种子缓冲队列中取出URL种子块,采用仅遍历URL种子块中URL条目的策略进行网页爬取;S40、当爬取的网页数量达到网页爬取线程设定的最大阈值时,将网页内容和其对应的URL封装并载入网页缓冲队列;S50、网页分析线程每次从网页缓冲队列中取出一个队列元素,并对所述队列元素中每一个网页通过查询哈希表进行URL分析,排除重复出现的URL,将新出现的URL载入待爬取URL列表;S60、当待爬取URL列表中元素达到最大值时写入URL缓冲队列,当一个网页缓冲队列元素中所有网页被分析后,将元素对象插入网页磁盘缓存,由清空网页缓存线程写入磁盘;S70、URL种子生成线程每次从URL缓冲队列中取出URL列表并重排,封装成URL种子块并插入URL种子缓冲队列。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310661466.1/,转载请声明来源钻瓜专利网。