[发明专利]一种分布式爬虫系统中的URL去重方法有效
申请号: | 201711047215.9 | 申请日: | 2017-10-31 |
公开(公告)号: | CN107798106B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 曾映方 | 申请(专利权)人: | 广东思域信息科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953;G06F16/9532 |
代理公司: | 东莞卓诚专利代理事务所(普通合伙) 44754 | 代理人: | 朱鹏 |
地址: | 523000 广东省东莞*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开了一种分布式爬虫系统中的URL去重方法,包括将Hash值放入一个2 |
||
搜索关键词: | 一种 分布式 爬虫 系统 中的 url 方法 | ||
【主权项】:
一种分布式爬虫系统中的URL去重方法,其特征在于,包括以下步骤:S1、将服务器集群作为统一的资源池,并将Hash值放入一个2m的Hash环形空间中,每个服务节点也作为对象放入Hash环中,每个服务节点对应一个Bloom Filter结构,每个服务节点处理对应范围的请求;S2、每个节点初始化Bloom Filter结构,即初始化一个长度为n比特的数组,所有比特位初始值都为0;S3、对新获取到的URL进行Hash计算得到H;S4、根据H落在hash环上的位置获得对应的服务节点k;S5、对应的服务器k对URL用K个Hash函数进行计算,得到K个哈希值H[0],H[1],....,H[k‑1];S6、根据K个Hash值查找Bloom Filter中的比特位图,判断对应的比特位是否都为1,若均为1,则认为URL为重复,进入步骤S7,否则进入步骤S8;S7、丢弃重复的URL,进入步骤S3;S8、将该URL放入爬虫的待处理队列中;S9、将该服务器节点k的Bloom Filter中对应的H[0],H[1],....,H[k‑1]位全部置为1;S10、记录插入log,内容为H,H[0],H[1],...,H[k‑1],插入记录数加1S11、判断Bloom Filter的使用率是否达到门限值,如果未达到门限值,则进入步骤S3,否则进入步骤S12;S12、增加节点,新生成节点K+1,,将节点对应的Bloom Filter内容进行迁移,即将节点对应的写入log进行重放操作,对应H值属于K+1节点的内容,将K+1的Bloom Filter中对应的H[0],H[1],...,H[k‑1]全部置为1;S13、对应节点k进行类似步骤S12的操作,生成新的Bloom Filter,完成后替换原来的Bloom Filter,进入步骤S3。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东思域信息科技有限公司,未经广东思域信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711047215.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于网站APP的二维码使用方法
- 下一篇:歌曲推荐的方法和移动设备