[发明专利]一种应用于分布式采集系统的任务调度方法在审
申请号: | 201510327473.7 | 申请日: | 2015-06-15 |
公开(公告)号: | CN104915259A | 公开(公告)日: | 2015-09-16 |
发明(设计)人: | 张裕超;孙海峰;王传超 | 申请(专利权)人: | 浪潮软件集团有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 分布式 采集 系统 任务 调度 方法 | ||
技术领域
本发明涉及大数据技术领域,具体地说是一种实用性强、应用于分布式采集系统的任务调度方法。
背景技术
随者互联网的飞速发展,大数据这个概念越来越受到人们的关注。企业通过采集互联网中的数据,可以从大量数据中找出有价值数据进行分析,并通过分析结果提供决策支持,驱动企业的加速发展。数据的价值越来越受到人们的关注。
但互联网中的信息各种各样,互联网的规模也越来越庞大,传统的采集方式需要在大量服务器中部署采集系统,采集时需要逐个服务器进行管理和配置。各采集系统之间没有关联,也非常容易出现重复采集或者少采集的情况,导致采集的效率不高,维护起来也十分不便。
任务调度管理作为基础架构通常会出现于我们的业务系统中,目的是让各种任务能够按计划有序执行。在数据采集系统中,我们需要对不同网站的多个种类进行采集,采集时需要针对网站地址、采集分类进行大量配置,然后在多个服务器上分别进行采集,这些相对耗时的操作通过任务调度系统来异步并行执行,既能提高任务的执行效率又能保障任务执行的可靠性。基于此,现提供一种可解决上述问题、应用于分布式采集系统的任务调度方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、应用于分布式采集系统的任务调度方法。
一种应用于分布式采集系统的任务调度方法,其具体实现过程为:将采集任务动态分配到集群的若干服务器中,每台服务器都配备采集程序且执行不同的采集任务,从而完成动态采集监控。
所述任务调度过程的详细步骤为:
部署服务器集群和控制该集群的控制台,在集群内的每台服务器上均配置采集程序;
在控制台上设置任务调度策略,即确定任务名称、最大线程数、执行任务的所有采集程序服务器地址信息;
通过控制台配置采集任务信息,该信息包括任务名称、任务执行类、任务执行的开始时间和结束时间、数据任务项;
将上述信息配置完成后保存,由控制台系统自动分发任务给集群并执行采集任务,完成采集过程。
所述采集用的集群为ZooKeeper服务器集群,该集群内的服务器实现对各个采集节点的监控,在采集程序中集成ZooKeeper,配置ZooKeeper集群相关信息;采集程序中集成分布试调试管理框架,以实现任务的动态分发调度。
所述分布试调试管理框架是指TbSchedule开源框架,并实现IScheduleTaskDealMulti批量任务接口。
所述IScheduleTaskDealMulti接口实现类的selectTasks,获取要采集的网站及采集类型信息,获取参数由调度器自行分配,该selectTasks参数为采集网站、网站类别的数据集合,集合信息存储在数据库中。
所述采集任务的分配通过调度程序完成,该调度程序自动查询出selectTasks参数,并根据配置信息,对数据ID的哈希值取模,将任务均分,使得系统按任务项将任务均分给采集服务器。
本发明的一种应用于分布式采集系统的任务调度方法,具有以下优点:
该发明的一种应用于分布式采集系统的任务调度方法可以让让一种批量采集任务或者不断变化的采集任务,能够被动态的分配到多个服务区的应用中并行执行。所有的任务能够被不重复,不遗漏的快速处理;可以指定调度的时间区间,灵活性强,实用性强,适用范围广泛,易于推广。
附图说明
附图1为本发明的系统架构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明的提供一种应用于分布式采集系统的任务调度方法,让多个采集任务动态的分配到多台服务器的采集程序中并行执行,所有的任务能够被不重复,不遗漏的快速处理,并且能动态的监控、管理采集任务的执行。
如附图1所示,其具体实现过程为:将采集任务动态分配到集群的若干服务器中,每台服务器都配备采集程序且执行不同的采集任务,从而完成动态采集监控。
所述任务调度过程的详细步骤为:
部署服务器集群和控制该集群的控制台,在集群内的每台服务器上均配置采集程序;
在控制台上设置任务调度策略,即确定任务名称、最大线程数、执行任务的所有采集程序服务器地址信息;
通过控制台配置采集任务信息,该信息包括任务名称、任务执行类、任务执行的开始时间和结束时间、数据任务项;
将上述信息配置完成后保存,由控制台系统自动分发任务给集群并执行采集任务,完成采集过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司,未经浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510327473.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自热糖尿病诊断专用杯
- 下一篇:具有洗茶和滤茶功能的茶杯