[发明专利]分布式的数据分析任务调度系统在审
申请号: | 201610712300.1 | 申请日: | 2016-08-23 |
公开(公告)号: | CN107766147A | 公开(公告)日: | 2018-03-06 |
发明(设计)人: | 孙冬雪;万英杰;李娟;史宁;鲍远松;黄明;李亚贝 | 申请(专利权)人: | 上海宝信软件股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F17/30 |
代理公司: | 上海汉声知识产权代理有限公司31236 | 代理人: | 郭国中 |
地址: | 201203 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 数据 分析 任务 调度 系统 | ||
技术领域
本发明涉及数据分析任务调度,具体地,涉及分布式的数据分析任务调度系统,能够广泛应用于工业过程数据的数据分析程式的调度执行。
背景技术
随着工业4.0的持续深度推进和物联网等技术的发展,移动设备、RFID等物体追踪设备在工业生产中的应用越来越广泛,数据的爆发性增长将会成为趋势。与此同时,企业精细化的管理的推进需要更多的数据量和更广泛的数据维度的分析为企业决策提供支持,而伴随企业信息化系统多年的使用,很多企业内部都产生了大量的历史数据,但对其分析利用并不充分。如何充分地挖掘利用现有和新增的大量业务数据?对比研究传统的工业应用的BI工具,主要存在以下几点不足:
(1)大量的数据分析任务不能自动进行分布式调度,常常导致数据分析任务堆积在单个节点,导致节点资源消耗较多,执行效率低下。
(2)数据分析任务存在单节点故障问题,当运行于单节点的分析任务失败后,无重启执行机制。
(3)缺陷有效地定时任务调度功能,无法满足定周期或者定间隔执行的分析任务的调度需求。
(4)数据源与分析结果的数据存储普遍没有利用分布式结构,结果容易受到结果存储节点的单机故障的影响,有可能造成数据丢失。
R语言是专门为统计和数据分析开发的开源语言,对不同操作系统兼容性好,编程简洁,是统计分析人员比较喜欢的编程工具平台。成熟数据挖掘算法包丰富且在不断增长,也有强大的分析结果可视化模块,如ggplot的多图层绘图。但其缺点是:对大文本处理比较差,虽然数据分析部分很强,但是对于数据管理部分缺乏,所以经常需要在外部环境做好后数据分割后,再转到R语言平台进行分析应用。
在已经公开的论文研究中,杨霞,吴东伟的《R语言在大数据处理中的应用》,主要介绍Revolution Analytics公司的RHadoop扩展包的特点和使用方式,利用该包可以在R里写Map-Reduce程序,刘闻飞的《基于R语言和Hadoop的集成技术及其实现研究》,主要介绍了利用Hadoop Streaming的方式集成执行R程序。申请号为CN201610074884.4,名称:分布式计算框架的任务调派系统,该专利文献公开了一种分布式计算框架的任务调派系统,其中包括应用服务器、任务队列服务平台与Redi s服务平台。应用服务器用于部署多个业务处理服务;任务队列服务平台由多个任务服务器透过网路集群,任务队列服务平台中部署zookeeper服务,任务调度操作用于处理zookeeper服务的消息队列的新的客户任务;由多个Redi s服务器透过网路连接构成,Redis服务平台经由网路连接于任务队列服务平台,Redi s服务平台根据新加入消息队列中的客户任务调用处理进程,处理进程对客户任务进行清洗并输出第一业务结果存储至Redi s缓存存储器中;Redis服务平台的实时计算模块侦测Redis缓存存储器中存在新的第一业务结果,实时计算模块对第一业务结果进行计算并输出第二业务结果。
技术要点比较:本发明与该专利文献相比,技术结构差异明显,在同样基于zookeeper的服务目的不同,该发明用于消息队列客户任务,本发明中则用于执行定时任务的单节点容错。本发明没有使用Redis,该专利文献也没有定时调度策略。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种分布式的数据分析任务调度系统。本发明要解决的技术问题是如何充分利用R平台的数据分析强、灵活的优点,利用大数据环境下分布式资源管理服务,构建一个基于资源的分布式的数据分析任务调度系统,方便在工业分析过程中的数据分析人员使用是本发明的关注点。
根据本发明提供的一种分布式的数据分析任务调度系统,包括:
分布式数据存储服务模块:通过非关系型数据库进行存储,通过分布式搜索引擎进行数据的检索,提供分布式数据存储服务
基于资源的分布式任务调度引擎模块:进行资源管理、资源控制、任务调度与跟踪,提供任务调度服务;
分布式消息队列模块:通过分布式消息队列实现数据的发布与订阅功能;
分布式应用程序协调服务模块:对单节点上的自动执行引擎任务的后续执行进行容错;
自动执行引擎模块:对数据分析任务做分析。
优选地,非关系型数据库采用数据库HBase;分布式搜索引擎采用搜索应用服务器Solr。
优选地,分布式数据存储服务模块是分析任务的数据来源。
优选地,分布式数据存储服务模块是任务文件和数据分析结果的存储载体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海宝信软件股份有限公司,未经上海宝信软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610712300.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置