[发明专利]一种分布式爬虫系统中的URL去重方法有效

专利信息
申请号: 201711047215.9 申请日: 2017-10-31
公开(公告)号: CN107798106B 公开(公告)日: 2023-04-18
发明(设计)人: 曾映方 申请(专利权)人: 广东思域信息科技有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/953;G06F16/9532
代理公司: 东莞卓诚专利代理事务所(普通合伙) 44754 代理人: 朱鹏
地址: 523000 广东省东莞*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 分布式 爬虫 系统 中的 url 方法
【权利要求书】:

1.一种分布式爬虫系统中的URL去重方法,其特征在于,包括以下步骤:

S1、将服务器集群作为统一的资源池,并将Hash值放入一个的Hash环形空间中,每个服务节点也作为对象放入Hash环中,每个服务节点对应一个Bloom Filter结构,每个服务节点处理对应范围的请求;

S2、每个节点初始化Bloom Filter结构,即初始化一个长度为n比特的数组,所有比特位初始值都为0;

S3、对新获取到的URL进行Hash计算得到H;

S4、根据H落在hash环上的位置获得对应的服务节点b;

S5、对应的服务节点b对URL用k个Hash函数进行计算,得到k个哈希值H[0],H[1],....,H[k-1];

S6、根据k个Hash值查找Bloom Filter中的比特位图,判断对应的比特位是否都为1,若均为1,则认为URL为重复,进入步骤S7,否则进入步骤S8;

S7、丢弃重复的URL,进入步骤S3;

S8、将该URL放入爬虫的待处理队列中;

S9、将该服务节点b的Bloom Filter中对应的H[0],H[1],....,H[k-1]比特位全部置为1;

S10、记录插入log,内容为H,H[0],H[1],...,H[k-1],插入记录数加1;

S11、判断Bloom Filter的使用率是否达到门限值,如果未达到门限值,则进入步骤S3,否则进入步骤S12;

S12、增加节点,新生成节点b+1,将节点对应的Bloom Filter内容进行迁移,即将节点对应的写入log进行重放操作,对应H值属于b+1节点的内容,将b+1的Bloom Filter中对应的H[0],H[1],...,H[k-1]比特位全部置为1;

S13、对应服务节点b进行步骤S12的操作,生成新的Bloom Filter,完成后替换原来的Bloom Filter,进入步骤S3;

所述Bloom Filter结构中,Bloom Filter假阳性误判概率为

其中k为hash函数个数,a为比特位总数,c为插入元素个数,则在给定f,k,a时,允许插入的最大元素个数Cmax为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东思域信息科技有限公司,未经广东思域信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711047215.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top