[发明专利]分布式RSS数据采集方法和系统在审
申请号: | 201810354384.5 | 申请日: | 2018-04-19 |
公开(公告)号: | CN108769115A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 刘晓飞;汪立东;舒琦赟;王慧;俞晓明;赵忠华;刘悦;王卿;程学旗 | 申请(专利权)人: | 中国科学院计算技术研究所;国家计算机网络与信息安全管理中心 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 采集节点 调度模块 采集 采集任务分配 注册中心 拉取 网络 采集系统 信息提供 保存 | ||
1.一种分布式RSS数据采集系统,其特征在于,包括:
分布于网络的至少一个采集节点模块,用于采集该网络上的RSS数据;
注册中心,用于保存所有该采集节点模块的信息,并将该信息提供给该调度模块;
调度模块,用于根据该采集节点模块的信息,将采集任务分配给该采集节点模块。
2.如权利要求1所述的分布式RSS数据采集系统,其特征在于,该注册中心具体包括:
注册模块,用于获取、保存该信息以生成节点列表,并向该调度模块提供该信息;
监听模块,用于监听及响应所有请求,并将该请求交于该注册模块处理;该请求包括新增采集节点模块加入请求、该信息更新请求和该调度模块对该信息拉取请求;
交互模块,用于与该采集节点模块进行交互,以判断该采集节点模块的状态,并将判断为失效状态的采集节点模块的信息从该节点列表中删除。
3.如权利要求1所述的分布式RSS数据采集系统,其特征在于,还包括:
消息队列,用于存储该采集节点模块采集到的该RSS数据;
分析模块,用于分析该消息队列的该RSS数据以得到目标数据,以及更新该采集任务的任务调度属性;
数据库,用于持久化存储该目标数据。
4.如权利要求1所述的分布式RSS数据采集系统,其特征在于,该采集节点模块为运行采集器程序的服务器。
5.如权利要求1所述的分布式RSS数据采集系统,其特征在于,该信息包括该采集节点模块的IP地址、存活信息、物理资源信息、资源使用信息和任务运行信息。
6.一种分布式RSS数据采集方法,通过如权利要求1~5任一项所述的分布式RSS数据采集系统采集网络上的RSS数据,其特征在于,包括:
步骤1,通过注册中心收集分布于网络的采集节点模块的信息;
步骤2,通过调度模块拉取采集任务;
步骤3,通过该调度模块拉取该采集节点的信息;
步骤4,根据该信息将该采集任务分配给该采集节点模块;
步骤5,通过该采集节点模块采集该网络上的RSS数据并保存至消息队列。
7.如权利要求6所述的分布式RSS数据采集方法,其特征在于,所述步骤1具体包括:
步骤11,监听并响应所有请求,并将该请求交于该注册中心进行处理;该请求包括新增采集节点模块加入请求、该采集节点模块的信息更新请求和该调度模块对该信息的拉取请求;
步骤12,获取、保存该信息以生成节点列表,并向该调度模块提供该信息;
步骤13,与该采集节点模块进行交互以判断该采集节点模块状态,将失效的采集节点模块的信息从该节点列表中删除。
8.如权利要求6所述的分布式RSS数据采集方法,其特征在于,所述步骤4具体包括:
步骤41,设定预测更新时间TF和更新阈值Δt,则根据该采集任务包含的优先级、更新周期和上一次更新时间,将预测在TF-Δt和TF+Δt时间范围内进行更新的该采集任务按该优先级从大到小排序以生成任务队列;
步骤42,根据该信息包含的物理资源信息、资源使用信息和任务运行信息,获取该采集节点模块的CPU资源余量p和内存资源余量q,得到该采集节点模块的剩余资源M,其中M=m*p+n*q,m、n为采集节点模块CPU,内存影响因子权重,m>0,n>0;将该采集节点模块按该剩余资源M从大到小排序;
步骤43,通过负载均衡算法将任务队列的采集任务依次取出分配给该采集节点模块,直到该任务队列为空。
9.如权利要求6所述的分布式RSS数据采集方法,其特征在于,还包括:
步骤6,通过分析模块对该RSS数据进行处理,得到目标数据;
步骤7,分析计算,更新采集任务调度属性;
步骤8,将RSS采集到的数据持久化存储至数据库。
10.如权利要求9所述的RSS数据采集方法,其特征在于,所述步骤7具体包括:
步骤71,根据得到的目标数据分析采集任务属性信息;目标数据包括该采集任务的更新次数N、平均更新时间T,以及最近三次该更新周期t1、t2、t3,其中t3为最近一次该更新周期;
步骤72,设定二次函数y=f(x)以满足t1=f(1)、t2=f(2)、t3=f(3),得到t'=f(4),通过该更新参数得到T'=(T*N+t3)/(N+1),则获取下一次更新周期t=a*T'+b*t',其中a、b为更新周期权重,a>0、b>0,且a+b=1。更新采集任务调度属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所;国家计算机网络与信息安全管理中心,未经中国科学院计算技术研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810354384.5/1.html,转载请声明来源钻瓜专利网。