[发明专利]一种分布式爬虫系统中的URL去重方法有效

专利信息
申请号: 201711047215.9 申请日: 2017-10-31
公开(公告)号: CN107798106B 公开(公告)日: 2023-04-18
发明(设计)人: 曾映方 申请(专利权)人: 广东思域信息科技有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/953;G06F16/9532
代理公司: 东莞卓诚专利代理事务所(普通合伙) 44754 代理人: 朱鹏
地址: 523000 广东省东莞*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种分布式爬虫系统中的URL去重方法,包括将Hash值放入一个2m的环形空间中,每个节点处理连续的Hash环上的一段,每个节点对应一个Bloom Filter结构。URL的去重过程为先计算Hash,获得对应的服务器节点,再判断根据Bloom Filter的内容判断是否已经存在。本发明采用一致性Hash和Bloom Filter相结合的方式,可以根据需要动态增加Bloom Filter节点,既可以保证URL数量不断增大时,控制Bloom Filter的假阳性误判率控制在给定范围内,又可以充分利用Bloom Filter的高效性,适用于构造大规模分布式的网络爬虫,支持高效抓取海量网页内容。
搜索关键词: 一种 分布式 爬虫 系统 中的 url 方法
【主权项】:
一种分布式爬虫系统中的URL去重方法,其特征在于,包括以下步骤:S1、将服务器集群作为统一的资源池,并将Hash值放入一个2m的Hash环形空间中,每个服务节点也作为对象放入Hash环中,每个服务节点对应一个Bloom Filter结构,每个服务节点处理对应范围的请求;S2、每个节点初始化Bloom Filter结构,即初始化一个长度为n比特的数组,所有比特位初始值都为0;S3、对新获取到的URL进行Hash计算得到H;S4、根据H落在hash环上的位置获得对应的服务节点k;S5、对应的服务器k对URL用K个Hash函数进行计算,得到K个哈希值H[0],H[1],....,H[k‑1];S6、根据K个Hash值查找Bloom Filter中的比特位图,判断对应的比特位是否都为1,若均为1,则认为URL为重复,进入步骤S7,否则进入步骤S8;S7、丢弃重复的URL,进入步骤S3;S8、将该URL放入爬虫的待处理队列中;S9、将该服务器节点k的Bloom Filter中对应的H[0],H[1],....,H[k‑1]位全部置为1;S10、记录插入log,内容为H,H[0],H[1],...,H[k‑1],插入记录数加1S11、判断Bloom Filter的使用率是否达到门限值,如果未达到门限值,则进入步骤S3,否则进入步骤S12;S12、增加节点,新生成节点K+1,,将节点对应的Bloom Filter内容进行迁移,即将节点对应的写入log进行重放操作,对应H值属于K+1节点的内容,将K+1的Bloom Filter中对应的H[0],H[1],...,H[k‑1]全部置为1;S13、对应节点k进行类似步骤S12的操作,生成新的Bloom Filter,完成后替换原来的Bloom Filter,进入步骤S3。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东思域信息科技有限公司,未经广东思域信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711047215.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top