[发明专利]一种基于实测带宽的多智能体互联网数据采集任务分配方法有效
申请号: | 201710052671.6 | 申请日: | 2017-01-24 |
公开(公告)号: | CN106886459B | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 沈颂 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/48;G06F16/951 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静;邱启旺 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于实测带宽的多智能体互联网数据采集任务分配方法,假定在环境中存在L个目标任务T1,T2,…,TL和K个智能体节点A1,A2,…,AK,若K>L,则执行单任务分配算法,否则执行多任务分配算法。在多任务分配时,传统的分布式爬虫系统一般采用随机任务调度的机制,这种机制的问题在于没有考虑多个采集节点能力的差异因素,从而影响了分布式爬虫系统的数据采集性能。本发明针对上述不足,提供一种基于实测带宽,合理分配分布式网络爬虫数据采集任务的方法,优先为采集能力匹配度高的节点分配采集任务,从而使得分布式数据采集系统获得较高的采集性能,提高了互联网信息的爬取效率。 | ||
搜索关键词: | 一种 基于 实测 带宽 智能 互联网 数据 采集 任务 分配 方法 | ||
【主权项】:
1.一种基于实测带宽的多智能体互联网数据采集任务分配方法,其特征在于:假定在环境中存在L个目标任务T1,T2,…,TL和K个智能体节点A1,A2,…,AK,若K>L,则执行单任务分配方法;否则执行多任务分配方法;所述的单任务分配方法步骤如下:a.针对每个智能体节点Ai与任务Tj,计算区域判决指标cij=(任务数+1)/(BC+BS),找出区域判决指标计算结果最小的节点;BC表示任务的目标区域与智能体所在区域的匹配度,计算方法如下:由智能体在建立种子信息表时先行从该种子页面爬取根页面三次,通过(爬取位数)/(爬取所消耗的时间)获取爬行带宽,存入种子库中相应BC字段;BS表示存储区域与智能体所在区域的匹配度,计算方法如下:由智能体在建立种子信息表时先行将一个标准100KB文件存入存储区域三次,通过(存取位数)/(存取所消耗的时间)获取存储带宽,存入种子库中相应BS字段;b.将待分配的任务分配给步骤(1)计算得到的节点;所述的多任务分配方法步骤如下:(1)在所有任务中每次分配K项,直到剩余任务数小于K;剩余任务可以在任务数增加后再行分配,也可以以单任务方式分配;(2)已知智能体Ai完成目标任务Tj的代价矩阵为C=(cij),其中cij的计算方法与单任务时相同;其中i=1,2,…,K,j=1,2,…,K;(3)将(cij)的每行元素都减去该行的最小元素,再将所得新系数矩阵的每列元素中减去该列的最小元素,获得等价代价矩阵C’=(c'ij);(4)作最少的直线覆盖所有0元素,通过找0元素进行试分配;方法是:先按照行或列找有没有可以覆盖K个元素的直线,若有则作该直线,若没有则再找有没有可以覆盖K‑1个元素的直线并作该直线,依此方法进行下去,直到所有0元素被覆盖;若这样能找出不同行不同列的K个0元素,转步骤(6),否则转步骤(5);(5)调整代价矩阵C’,在未被直线穿过的数集中,找出最小的数z,让该数集对应的所有行中的所有数减去z,而让所有被直线穿过的列中的数加上z,以保证系数矩阵中不出现负元素,得到新系数矩阵;新系数矩阵的最优解和原问题相同,此时去掉直线,用新系数矩阵代替C’,返回步骤(3);(6)以这K个独立0元素对应解矩阵(c'ij)中的元素为1,其余为0,得到最优解矩阵(c”ij),即此时矩阵元素中c”ij=1所代表的结果是智能体i被分配了任务j,其中i,j=1,2,…,K。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710052671.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种应用程序智能控制方法及装置
- 下一篇:负载均衡方法和装置