[发明专利]分布式RSS数据采集方法和系统在审

专利信息
申请号: 201810354384.5 申请日: 2018-04-19
公开(公告)号: CN108769115A 公开(公告)日: 2018-11-06
发明(设计)人: 刘晓飞;汪立东;舒琦赟;王慧;俞晓明;赵忠华;刘悦;王卿;程学旗 申请(专利权)人: 中国科学院计算技术研究所;国家计算机网络与信息安全管理中心
主分类号: H04L29/08 分类号: H04L29/08
代理公司: 北京律诚同业知识产权代理有限公司 11006 代理人: 祁建国;梁挥
地址: 100080 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 采集节点 调度模块 采集 采集任务分配 注册中心 拉取 网络 采集系统 信息提供 保存
【说明书】:

发明涉及一种分布式RSS数据采集系统,包括:分布于网络的至少一个采集节点模块,用于采集该网络上的RSS数据;注册中心,用于保存所有该采集节点模块的信息,并将该信息提供给该调度模块;调度模块,用于根据该信息将采集任务分配给该采集节点模块。分布式RSS数据采集方法包括:通过注册中心收集分布于网络的采集节点模块的信息;通过调度模块拉取采集任务;通过该调度模块拉取该信息;根据该信息将该采集任务分配给该采集节点模块;采集该网络上的RSS数据。

技术领域

本发明涉及网络数据采集和分布式系统管理领域,特别涉及一种分布式 RSS数据采集方法和系统。

背景技术

自媒体时代,网络信息的发布与更新速显著增快,导致使用搜索引擎进行信息的实时更新获取变得越来越困难。对于诸如新闻等频繁更新的数据源,使用搜索引擎更是难以企及它的更新速度。如何应对这些快速的数据更新,是网络监控部门亟待解决的重要问题。简易信息聚合(RSS,Really Simple Syndication)以其结构化特点,在全球广域网(Web,WorldWide Web)应用中越来越受到青睐,它使得网络信息更加结构化。目前RSS已被广泛地应用在新闻网站。RSS的结构化特点使得网络爬虫可以通过跟踪RSS页面的更新并及时捕获更新信息,为解决实时更新的数据获取提供了一条可行的思路。也因此针对RSS的采集技术也如雨后春笋般层出不穷。

然而在为数众多的RSS数据采集技术中,还没有关于大规模,具有可扩展性的RSS数据采集技术,RSS数据采集的采集规模由此受限。

发明内容

针对上述问题,本发明提出一种分布式RSS数据采集系统,包括:分布于网络的至少一个采集节点模块,用于采集该网络上的RSS数据;注册中心,用于保存所有该采集节点模块的信息,并将该信息提供给该调度模块;调度模块,用于根据该信息,将采集任务分配给该采集节点模块;消息队列,用于用于存储该采集节点模块采集到的该RSS数据;分析模块,用于分析该RSS数据以得到目标数据,以及更新该采集任务的采集任务调度属性;数据库,用于持久化存储该目标数据。

本发明所述的分布式RSS数据采集系统,其中该注册中心具体包括:注册模块,用于获取、保存该采集节点模块信息以生成节点列表,并向该调度模块提供该采集节点模块信息;监听模块,用于监听及响应所有请求,并将该请求交于该注册模块处理;该请求包括新增采集节点模块加入请求、该采集节点模块信息更新请求和该调度模块对该信息拉取请求;交互模块,用于与该采集节点模块进行交互,以判断该采集节点模块的状态,并将判断为失效状态的采集节点模块的信息从该节点列表中删除。

本发明所述的分布式RSS数据采集系统,其中该采集节点模块为运行采集器程序的服务器。

本发明所述的分布式RSS数据采集系统,其中该信息包括该采集节点模块的IP地址、存活信息、物理信息、资源使用信息和任务运行信息。

本发明还涉及一种分布式RSS数据采集方法,包括:

步骤1,通过注册中心收集分布于网络的采集节点模块信息;

步骤2,通过调度模块拉取采集任务;

步骤3,通过该调度模块拉取该信息;

步骤4,根据该信息将该采集任务分配给该采集节点模块;

步骤5,通过该采集节点模块采集该网络上的RSS数据并保存至消息队列;

步骤6,通过分析模块对该RSS数据进行处理;

步骤7,更新该任务的采集任务调度属性;

步骤8,将该目标数据持久化存储至数据库。

本发明所述的分布式RSS数据采集方法,其中所述步骤1具体包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所;国家计算机网络与信息安全管理中心,未经中国科学院计算技术研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810354384.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top