[发明专利]一种分布式大数据分析方法在审
申请号: | 201510960157.3 | 申请日: | 2015-12-21 |
公开(公告)号: | CN105608160A | 公开(公告)日: | 2016-05-25 |
发明(设计)人: | 于晓晨;邵兵;刘永;王宁 | 申请(专利权)人: | 浪潮软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 罗文曌 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 数据 分析 方法 | ||
技术领域
本发明涉及数据分析领域,具体地说是一种分布式大数据分析方法。
背景技术
随着信息时代的到来,数据的积累成几何倍增长。为了从已有的海量数据中挖掘有效信息,出现了各种不同的数据分析算法。
在数据分析的实际操作过程中,无法立即确定最合适的算法,需要通过不断的尝试不同的算法,或者算法组合来获得不同的计算结果。根据对不同的计算结果进行对比,从而获得最佳的算法方案、以及最优的分析结果,以获得最效的数据反馈信息。
数据分析人员需要既懂算法的原理,又要懂算法的具体代码实现。对技术人员要求较高,同时实现不同的算法组合分析数据时候,需要不断调整编码,较为繁琐。
发明内容
本发明的技术任务是针对上述现有技术的不足,提供一种分布式大数据分析方法。该方法通过统一算法接口标准,使算法与算法之间可以随机组合。仅通过算法即可实现完整的数据分析过程。而且,根据本发明的算法接口标准实现的算法,可以与工具原有算法无缝组合,对整个数据分析的流程无任何影响,方便用户扩充算法种类、以及增加个性化算法。
本发明的技术任务是按以下方式实现的:一种分布式大数据分析方法,其特点是以大数据为基础,将不同算法制定统一的服务标准,根据服务标准实现的算法随机组合绘制成流程图,并根据流程图的算法节点关系,自动在spark分布式系统上执行,实现数据分析的云计算。户可以完全不了解代码实现,只关注于数据分析所需要使用的算法、如何绘制数据分析流程、以及数据分析结果准确性。同时用户可以根据工具的算法服务标准,灵活添加自己的算法。根据工具的算法服务标准增加的算法,可以很好的与工具已有其他算法进行随机组合,并能流畅运算,增加了算法实现的可扩充性。
作为优选,本发明所述方法可采用b/s架构,用户通过浏览器来实现对算法流程的绘制。
所述流程图中包含算法实例节点、以及算法实例节点的关系,算法实例节点的关系通过算法之间的连线来确定。
每一个算法都对应有已经编写好算法的jar包,通过统一算法的输入输出参数信息,保证算法节点之间的数据流转。
作为优选,可通过算法节点与算法节点之间的箭头来表示算法节点之间的关系,根据算法节点关系的描述,自动查找到算法节点的起始位置,开始执行算法处理数据;当执行完一个算法节点的时候,再根据算法节点的描述自动执行下一个节点的算法。
进一步的,可以以工具提供算法的服务与标准,根据算法接口与标准增加新的算法。
以工具提供流程的检测功能,检查流程的完整性、正确性。
与现有技术相比,本发明的分布式大数据分析方法具有以下有益效果:
(一)通过统一算法的接口和标准,能够让用户自由实现自己的算法,并与工具的其他算法无缝组合。
(二)通过绘制算法流程图,实现对算法的不同顺序组合来分析处理数据,分析流程多样化。
(三)流程图会自动解析运行在spark的群集上,省去了人工将算法运行在spark群集上的工作。
(四)算法所运行的spark分布式系统是主流的云计算框架之一,运行速度较快。
(五)通过绘制数据分析完整流程图,使得分析数据无需编码实现。数据分析人员只需要懂算法即可。减少了技术人员的要求,以及节省了一般数据分析中,因算法顺序改变而编码调整的时间。同时图形化的数据分析界面,更容易查找整个数据分析流程中不适合的算法节点。
附图说明
附图1是本发明分布式大数据分析方法的流程图。
具体实施方式
参照说明书附图以具体实施例对本发明的分布式大数据分析方法作以下详细地说明。
实施例:
本发明分布式消息转发方法本发明采用b/s架构,使用户可以通过浏览器来实现对算法流程的绘制。在一个完整的流程图中包含:算法实例节点、以及算法实例节点的关系。算法实例节点的关系是通过算法之间的连线来确定。算法的运行环境是spark分布式计算系统中,大量缩短计算时间。
在流程图绘制界面,增加一个算法实例节点后,可以通过算法实例节点的属性值界面,来修改算法用到的属性。每一个算法都会对应已经编写好算法的jar包。在算法中统一了算法的输入输出的参数信息,以保证算法节点之间的数据流转。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件股份有限公司,未经浪潮软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510960157.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种提供聚合类型回答的方法和装置
- 下一篇:β-烷氧基丙酰胺类的制备方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置