[发明专利]一种基于实测带宽的多智能体互联网数据采集任务分配方法有效

申请号：	201710052671.6	申请日：	2017-01-24
公开（公告）号：	CN106886459B	公开（公告）日：	2019-07-23
发明（设计）人：	沈颂	申请（专利权）人：	浙江工商大学
主分类号：	G06F9/50	分类号：	G06F9/50;G06F9/48;G06F16/951
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	刘静;邱启旺
地址：	310018 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于实测带宽智能互联网数据采集任务分配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于实测带宽的多智能体互联网数据采集任务分配方法，假定在环境中存在L个目标任务T₁，T₂，…,T_L和K个智能体节点A₁,A₂,…,A_K，若K>L，则执行单任务分配算法，否则执行多任务分配算法。在多任务分配时，传统的分布式爬虫系统一般采用随机任务调度的机制，这种机制的问题在于没有考虑多个采集节点能力的差异因素，从而影响了分布式爬虫系统的数据采集性能。本发明针对上述不足，提供一种基于实测带宽，合理分配分布式网络爬虫数据采集任务的方法，优先为采集能力匹配度高的节点分配采集任务，从而使得分布式数据采集系统获得较高的采集性能，提高了互联网信息的爬取效率。

技术领域

本发明涉及数据采集领域，尤其涉及一种基于实测带宽的多智能体互联网数据采集任务分配方法。

背景技术

为满足海量数据爬取的需求，现代爬虫系统一般采用大规模分布式架构。在这种架构中，如何高效配置多个数据采集节点的资源成为提升爬虫系统性能的关键问题。传统的分布式爬虫系统一般采用随机任务调度的机制或类似机制。这种机制的问题在于没有考虑爬取目标的地理位置差异，以及多个采集节点在采集、存储方面的带宽差异因素，更没有运用相应的带宽测试方法，因此无法做到资源的最优配置，从而影响了分布式爬虫系统的数据采集性能。

发明内容

本发明为克服上述不足之处，设计了一种基于实测带宽的任务分配方法，该方法用于将多个采集任务分配给多个采集节点，根据每个采集节点的状态信息、实测带宽情况以及待分配任务的信息，经过算法处理后得出任务分配结果。

本发明的目的是通过以下技术方案来实现的：一种基于实测带宽的多智能体互联网数据采集任务分配方法，具体为：假定在环境中存在L个目标任务T₁，T₂，…,T_L和K个智能体节点A₁,A₂,…,A_K，若K>L，则执行单任务分配算法；否则执行多任务分配算法；

所述的单任务分配算法步骤如下：

(1)针对每个智能体节点A_i与任务T_j，计算区域判决指标c_ij＝(任务数+1)/(B_C+B_S)，找出区域判决指标计算结果最小的节点。

B_C表示任务的目标区域与智能体所在区域的匹配度，计算方法如下：由智能体在建立种子信息表时先行从该种子页面爬取根页面三次，通过(爬取位数)/(爬取所消耗的时间)获取爬行带宽，存入种子库中相应B_C字段。

B_S表示存储区域与智能体所在区域的匹配度，计算方法如下：由智能体在建立种子信息表时先行将一个标准100KB文件存入存储区域三次，通过(存取位数)/(存取所消耗的时间)获取存储带宽，存入种子库中相应B_S字段。

(2)将待分配的任务分配给步骤(1)计算得到的节点。

所述的多任务分配算法步骤如下：

(1)在所有任务中每次分配K项，直到剩余任务数小于K。剩余任务可以在任务数增加后再行分配，也可以以单任务方式分配；

(2)已知智能体A_i(i＝1,2,…,K)完成目标任务T_j(j＝1,2,…,K)的代价矩阵为C＝(c_ij)(i,j＝1,2,…,K)，其中c_ij的计算方法与单任务时相同；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工商大学，未经浙江工商大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710052671.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于实测带宽的多智能体互联网数据采集任务分配方法有效

专利文献下载