[发明专利]网络爬虫系统的负载均衡调节方法有效

专利信息
申请号: 201710381508.4 申请日: 2017-05-26
公开(公告)号: CN107203623B 公开(公告)日: 2020-09-22
发明(设计)人: 赵燕清;魏墨济;朱世伟;李宪毅;李晨;杨爱芹;于俊凤;李思思;徐蓓蓓;刘翠琴;张铭君;董婷 申请(专利权)人: 山东省科学院情报研究所
主分类号: G06F16/951 分类号: G06F16/951;G06F16/955;G06F9/48
代理公司: 暂无信息 代理人: 暂无信息
地址: 250014 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网络 爬虫 系统 负载 均衡 调节 方法
【权利要求书】:

1.一种网络爬虫系统的负载均衡调节方法,网络爬虫系统包括部署于同一组织局域网内的爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器、数据中心和用户;组织局域网通过路由器接入运营商的方式访问Internet,以便爬取节点抓取目标数据源服务器中的数据;其特征在于:负载均衡调节方法通过以下步骤来实现:

a).确定数据采集方法,对于信息更新频率和数量较低的新闻类网站,采用爬虫直接抓取目标源数据,再使用关键词进行数据过滤;对于信息更新频率和数量极高的社交媒体类网站,利用目标数据源的站内检索结合关键词获取有效信息,再使用爬虫抓取检索结果;

b).分配任务,对于新闻类网站,爬取主控节点将同一域名的新闻类网站分配给一个爬取节点采集目标源数据;对于社交媒体类网站,将同一域名的社交媒体类网站分配到全部爬取节点,并为每个爬取节点分配互不相同的关键词;

设爬取节点数为Ncl,不同域名的新闻类网站数为Nweb,不同域名的社交媒体类网站数为Nsoc,社交媒体类网站的关键词数为Nkw;则为每个爬取节点平均分配个不同域名的新闻类网站,将域名不同的社交媒体类网站分配到所有爬取节点,并为每个爬取节点平均分配个不同的关键词;

c).数据采集和存储,爬取主控节点为每个爬取节点分配新闻类网站采集入口URL地址、社交媒体类采集入口URL地址以及关键词后,爬取节点利用网络爬虫访问新闻类网站和社交媒体类网站,各爬取节点采集目标数据源列表的网页数据,并将采集到的数据发送至数据中心;

d).获取采集时间表,各爬取节点在完成一轮采集后将所记录的新闻类网站的采集时间表和社交媒体类网站的采集时间表发送至爬取主控节点,爬取主控节点将其存储至本地的信息采集汇总时间表中;新闻类网站的采集时间表由各新闻类网站及采集网站所花费的时间cost、采集网站的完成时间round组成;社交媒体类网站的采集时间表由关键词、采集关键词所花费的时间以及采集关键词完成时间组成;

e).计算平均访问时间和权重,爬取主控节点以天为单位,在一天结束时分析当天的信息采集汇总时间表,按新闻类网站汇总当天多轮采集时间,计算当天每个新闻类网站的一轮抓取所需平均访问时间,按社交媒体类网站关键词汇总当天多轮采集时间,计算当天每个社交媒体类网站的每个关键词抓取所需平均访问时间;按照公式(1)计算各新闻类网站的权重;按照公式(2)计算各社交媒体类网站的各关键词的权重;

爬取主控节点维护着爬取节点任务分配表和爬取节点心跳表,新闻类网站的任务分配表中记录各个爬取节点所分配到的网站及各个网站的权重,新闻类网站webi的权重的计算公式为:

其中,为抓取新闻类网站webj所花费的时间,i∈[1,Nweb],j∈[1,Nweb];初始采集各新闻类网站花费时间未知时,认为所有新闻类网站采集时间相同,则各新闻类网站的初始权重为

社交媒体类网站的任务分配表中记录各个爬取节点在每个社交媒体类网站中所分配到的关键词以及不同社交媒体类网站不同关键词的权重,社交媒体类网站soci中关键词kwj的权重的计算公式为:

其中,为在社交媒体类网站soci中采集关键词kwk相关的信息所所花费的时间,i∈[1,Nsoc],j、k∈[1,Nkw];初始在各社交媒体类网站中采集不同关键词相关信息花费时间未知时,认为各关键词相关信息的采集时间相同,则各关键词的初始权重为

各爬取节点的社交媒体类网站的关键词负载均衡调节通过步骤f)至步骤m)来实现;

f).判断耗时时间差,爬取主控节点计算出各爬取节点完成某社交媒体类网站的关键词一轮抓取所需平均访问时间,找出耗时最长和最短的爬取节点,计算两者耗时时间差,若两者时间差不大于用户预设调节时间差阈值,则维持当前社交媒体类网站关键词的分配状态,均衡负载结束;若两者时间差大于用户预设调节时间差阈值,则执行步骤g);

g).关键词排序,爬取主控节点按照权重降序排列该社交媒体类网站的关键词,执行步骤h);

h).重新分配关键词,爬取主控节点从排好序的关键词中,依次取出第1至第Ncl个关键词顺序分配给spider1、spider2、…、spiderNcl,然后依次取出第Ncl+1至第2Ncl个关键词逆序分配给spider1、spider2、…、spiderNcl,迭代该过程,直至分完该社交媒体类网站的所有关键词,将此关键词的分配记录为初始状态KW_Init_Assignment,spideri代表第i个爬取节点,i≤Ncl;执行步骤i);

i).迭代次数清零,抽取KW_Init_Assignment状态中所有爬取节点中所有关键词的权重,并计算爬取节点所分配关键词权重的方差Variance_Init,并将迭代次数Iteration清零,令Iteration=0;

j).迭代次数加1,令Iteration=Iteration+1,然后判断迭代次数Iteration是否小于指定迭代次数iteration_threshold,若是,则令本次迭代的方差Variance_MinIteration等于初始状态方差,Variance_MinIteration=Variance_Init,执行步骤k);否则,执行步骤m);

k).交换关键词,随机选择两个爬取节点,并在所选择的爬取节点中随机选择两个关键词进行交换,然后重新抽取所有爬取节点中所有关键词的权重,计算权重方差Variance_Random;执行步骤l);

l).比较权重方差的大小,比较Variance_Random与Variance_MinIteration的大小;

如果Variance_RandomVariance_MinIteration,则保持两个关键词的交换,将Variance_Random赋值给Variance_MinIteration,令Variance_MinIteration=Variance_Random,并将交换失败计数counter清零,令counter=0;Variance_MinIteration为所记录关键词权重方差的最小值,执行步骤k);

如果Variance_Random≥Variance_MinIteration,则撤销两个关键词的交换,并使交换失败计数counter加1,即令counter=counter+1;若交换失败计数counter的值小于累计次数阈值counter_threshold,转入步骤k);若counter≥counter_threshold,将此关键词的分配记录为第Iteration次迭代状态KW_IntermedIteration_Assignment,转入步骤j);

m).选取最优状态进行分配,比较多个KW_IntermedIteration_Assignment中的关键词权重方差Variance_MinIteration的值,将Variance_MinIteration值最小的KW_IntermedIteration_Assignment记录为关键词分配最终状态KW_Final_Assignment,按照此最终状态更新爬取节点任务分配表,并按此表重新为各个爬取节点分配任务。

2.根据权利要求1所述的网络爬虫系统的负载均衡调节方法,其特征在于:各爬取节点的新闻类网站的负载均衡调节采用与步骤f)至步骤m)相同的方法,只需将步骤f)至步骤m)中社交媒体类网站的关键词替换为新闻类网站即可。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省科学院情报研究所,未经山东省科学院情报研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710381508.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top