[发明专利]一种基于实测带宽的多智能体互联网数据采集任务分配方法有效
申请号: | 201710052671.6 | 申请日: | 2017-01-24 |
公开(公告)号: | CN106886459B | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 沈颂 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/48;G06F16/951 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静;邱启旺 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实测 带宽 智能 互联网 数据 采集 任务 分配 方法 | ||
本发明公开了一种基于实测带宽的多智能体互联网数据采集任务分配方法,假定在环境中存在L个目标任务T1,T2,…,TL和K个智能体节点A1,A2,…,AK,若K>L,则执行单任务分配算法,否则执行多任务分配算法。在多任务分配时,传统的分布式爬虫系统一般采用随机任务调度的机制,这种机制的问题在于没有考虑多个采集节点能力的差异因素,从而影响了分布式爬虫系统的数据采集性能。本发明针对上述不足,提供一种基于实测带宽,合理分配分布式网络爬虫数据采集任务的方法,优先为采集能力匹配度高的节点分配采集任务,从而使得分布式数据采集系统获得较高的采集性能,提高了互联网信息的爬取效率。
技术领域
本发明涉及数据采集领域,尤其涉及一种基于实测带宽的多智能体互联网数据采集任务分配方法。
背景技术
为满足海量数据爬取的需求,现代爬虫系统一般采用大规模分布式架构。在这种架构中,如何高效配置多个数据采集节点的资源成为提升爬虫系统性能的关键问题。传统的分布式爬虫系统一般采用随机任务调度的机制或类似机制。这种机制的问题在于没有考虑爬取目标的地理位置差异,以及多个采集节点在采集、存储方面的带宽差异因素,更没有运用相应的带宽测试方法,因此无法做到资源的最优配置,从而影响了分布式爬虫系统的数据采集性能。
发明内容
本发明为克服上述不足之处,设计了一种基于实测带宽的任务分配方法,该方法用于将多个采集任务分配给多个采集节点,根据每个采集节点的状态信息、实测带宽情况以及待分配任务的信息,经过算法处理后得出任务分配结果。
本发明的目的是通过以下技术方案来实现的:一种基于实测带宽的多智能体互联网数据采集任务分配方法,具体为:假定在环境中存在L个目标任务T1,T2,…,TL和K个智能体节点A1,A2,…,AK,若K>L,则执行单任务分配算法;否则执行多任务分配算法;
所述的单任务分配算法步骤如下:
(1)针对每个智能体节点Ai与任务Tj,计算区域判决指标cij=(任务数+1)/(BC+BS),找出区域判决指标计算结果最小的节点。
BC表示任务的目标区域与智能体所在区域的匹配度,计算方法如下:由智能体在建立种子信息表时先行从该种子页面爬取根页面三次,通过(爬取位数)/(爬取所消耗的时间)获取爬行带宽,存入种子库中相应BC字段。
BS表示存储区域与智能体所在区域的匹配度,计算方法如下:由智能体在建立种子信息表时先行将一个标准100KB文件存入存储区域三次,通过(存取位数)/(存取所消耗的时间)获取存储带宽,存入种子库中相应BS字段。
(2)将待分配的任务分配给步骤(1)计算得到的节点。
所述的多任务分配算法步骤如下:
(1)在所有任务中每次分配K项,直到剩余任务数小于K。剩余任务可以在任务数增加后再行分配,也可以以单任务方式分配;
(2)已知智能体Ai(i=1,2,…,K)完成目标任务Tj(j=1,2,…,K)的代价矩阵为C=(cij)(i,j=1,2,…,K),其中cij的计算方法与单任务时相同;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710052671.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种应用程序智能控制方法及装置
- 下一篇:负载均衡方法和装置