[发明专利]网络爬虫系统的负载均衡调节方法有效
申请号: | 201710381508.4 | 申请日: | 2017-05-26 |
公开(公告)号: | CN107203623B | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 赵燕清;魏墨济;朱世伟;李宪毅;李晨;杨爱芹;于俊凤;李思思;徐蓓蓓;刘翠琴;张铭君;董婷 | 申请(专利权)人: | 山东省科学院情报研究所 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F9/48 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 爬虫 系统 负载 均衡 调节 方法 | ||
本发明的网络爬虫系统的负载均衡调节方法,首先计算出新闻类网站和社交媒体类网站关键词的权重,然后通过比较访问时间耗时最长和最短的时间差,来判断是否需要进行负载均衡调节;当需要调节负载时,首先将按照权重排序的新闻类网站或社交媒体网站的关键词分配给各爬取节点,然后在权重方差减小的情况下交换所选取的任意两个爬取节点的新闻类网站或关键词,并记录交换后的状态,直至达到设定的交换次数;最后从记录的状态中选取具有最小权重方差的状态作为新闻类网站或社交媒体网站的关键词的最终分配状态,以实现爬取节点负载均衡调节的目的。
技术领域
本发明涉及一种负载均衡调节方法,更具体的说,尤其涉及一种网络爬虫系统的负载均衡调节方法。
背景技术
大数据时代的来临,网络上所承载的信息愈加丰富,其中既有指导行业发展走向的政策类网站,也有介绍相关领域最新科技动态及竞争对手产品信息的新闻类网站,还有反应用户对产品评价的博客、论坛、微博等社交网站。外网数据的有效接入和应用对政府、企事业单位等各级各类组织辅助决策、制定计划、管理成本、销售运营、服务售后等提供信息支持,为组织更好知己知彼掌控行业信息打开了一扇窗口。网络爬虫起始于种子链接穿行于Internet,将访问到的页面下载至本地,为网络数据采集提供技术支撑,为组织深度挖掘和分析网络数据奠定良好开端。
根据网络爬虫所部署的地理位置和网络拓扑结构不同,可以将网络爬虫分为部署于同一局域网的单一域网络爬虫(Single-domain Distributed crawler,又称局域网爬虫)和分散部署于广域网的多域网络爬虫(Multi-domain Distribute Crawler,又称广域网爬虫)。无论是单一域网爬虫还是广域网爬虫最基本的功能均是网页数据抓取,而其灵魂则是调度策略,调度策略不同则抓取方法不同。调度策略主要包括种子链接分配策略、负载均衡策略、网页查重策略等。
目前负载均衡策略主要分为静态负载均衡和动态负载均衡,其中静态负载均衡主要有轮询方式、比率方式、优先权方式等;而动态负载均衡在抓取过程中收集各爬虫服务器负载信息,根据负载情况迁移节点任务。无论何种均衡策略其任务迁移的对象均是网络链接,将高负荷爬虫的网络链接分配给低负荷爬虫,以均衡整个系统的负载,爬取节点负载的均衡有利于网络数据的高效采集。
发明内容
不同于当前负载均衡策略,本发明提供了一种网络爬虫系统的负载均衡调节方法。
本发明的网络爬虫系统的负载均衡调节方法,网络爬虫系统包括部署于同一组织局域网内的爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器、数据中心和用户;组织局域网通过路由器接入运营商的方式访问Internet,以便爬取节点抓取目标数据源服务器中的数据;其特征在于:负载均衡调节方法通过以下步骤来实现:
a).确定数据采集方法,对于信息更新频率和数量较低的新闻类网站,采用爬虫直接抓取目标源数据,再使用关键词进行数据过滤;对于信息更新频率和数量极高的社交媒体类网站,利用目标数据源的站内检索结合关键词获取有效信息,再使用爬虫抓取检索结果;
b).分配任务,对于新闻类网站,爬取主控节点将同一域名的新闻类网站分配给一个爬取节点采集目标源数据;对于社交媒体类网站,将同一域名的社交媒体类网站分配到全部爬取节点,并为每个爬取节点分配互不相同的关键词;
设爬取节点数为Ncl,不同域名的新闻类网站数为Nweb,不同域名的社交媒体类网站数为Nsoc,社交媒体类网站的关键词数为Nkw;则为每个爬取节点平均分配个不同域名的新闻类网站,将域名不同的社交媒体类网站分配到所有爬取节点,并为每个爬取节点平均分配个不同的关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省科学院情报研究所,未经山东省科学院情报研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710381508.4/2.html,转载请声明来源钻瓜专利网。