[发明专利]分布式RSS数据采集方法和系统在审
申请号: | 201810354384.5 | 申请日: | 2018-04-19 |
公开(公告)号: | CN108769115A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 刘晓飞;汪立东;舒琦赟;王慧;俞晓明;赵忠华;刘悦;王卿;程学旗 | 申请(专利权)人: | 中国科学院计算技术研究所;国家计算机网络与信息安全管理中心 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 采集节点 调度模块 采集 采集任务分配 注册中心 拉取 网络 采集系统 信息提供 保存 | ||
本发明涉及一种分布式RSS数据采集系统,包括:分布于网络的至少一个采集节点模块,用于采集该网络上的RSS数据;注册中心,用于保存所有该采集节点模块的信息,并将该信息提供给该调度模块;调度模块,用于根据该信息将采集任务分配给该采集节点模块。分布式RSS数据采集方法包括:通过注册中心收集分布于网络的采集节点模块的信息;通过调度模块拉取采集任务;通过该调度模块拉取该信息;根据该信息将该采集任务分配给该采集节点模块;采集该网络上的RSS数据。
技术领域
本发明涉及网络数据采集和分布式系统管理领域,特别涉及一种分布式 RSS数据采集方法和系统。
背景技术
自媒体时代,网络信息的发布与更新速显著增快,导致使用搜索引擎进行信息的实时更新获取变得越来越困难。对于诸如新闻等频繁更新的数据源,使用搜索引擎更是难以企及它的更新速度。如何应对这些快速的数据更新,是网络监控部门亟待解决的重要问题。简易信息聚合(RSS,Really Simple Syndication)以其结构化特点,在全球广域网(Web,WorldWide Web)应用中越来越受到青睐,它使得网络信息更加结构化。目前RSS已被广泛地应用在新闻网站。RSS的结构化特点使得网络爬虫可以通过跟踪RSS页面的更新并及时捕获更新信息,为解决实时更新的数据获取提供了一条可行的思路。也因此针对RSS的采集技术也如雨后春笋般层出不穷。
然而在为数众多的RSS数据采集技术中,还没有关于大规模,具有可扩展性的RSS数据采集技术,RSS数据采集的采集规模由此受限。
发明内容
针对上述问题,本发明提出一种分布式RSS数据采集系统,包括:分布于网络的至少一个采集节点模块,用于采集该网络上的RSS数据;注册中心,用于保存所有该采集节点模块的信息,并将该信息提供给该调度模块;调度模块,用于根据该信息,将采集任务分配给该采集节点模块;消息队列,用于用于存储该采集节点模块采集到的该RSS数据;分析模块,用于分析该RSS数据以得到目标数据,以及更新该采集任务的采集任务调度属性;数据库,用于持久化存储该目标数据。
本发明所述的分布式RSS数据采集系统,其中该注册中心具体包括:注册模块,用于获取、保存该采集节点模块信息以生成节点列表,并向该调度模块提供该采集节点模块信息;监听模块,用于监听及响应所有请求,并将该请求交于该注册模块处理;该请求包括新增采集节点模块加入请求、该采集节点模块信息更新请求和该调度模块对该信息拉取请求;交互模块,用于与该采集节点模块进行交互,以判断该采集节点模块的状态,并将判断为失效状态的采集节点模块的信息从该节点列表中删除。
本发明所述的分布式RSS数据采集系统,其中该采集节点模块为运行采集器程序的服务器。
本发明所述的分布式RSS数据采集系统,其中该信息包括该采集节点模块的IP地址、存活信息、物理信息、资源使用信息和任务运行信息。
本发明还涉及一种分布式RSS数据采集方法,包括:
步骤1,通过注册中心收集分布于网络的采集节点模块信息;
步骤2,通过调度模块拉取采集任务;
步骤3,通过该调度模块拉取该信息;
步骤4,根据该信息将该采集任务分配给该采集节点模块;
步骤5,通过该采集节点模块采集该网络上的RSS数据并保存至消息队列;
步骤6,通过分析模块对该RSS数据进行处理;
步骤7,更新该任务的采集任务调度属性;
步骤8,将该目标数据持久化存储至数据库。
本发明所述的分布式RSS数据采集方法,其中所述步骤1具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所;国家计算机网络与信息安全管理中心,未经中国科学院计算技术研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810354384.5/2.html,转载请声明来源钻瓜专利网。