[发明专利]一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法有效

申请号：	201710788398.3	申请日：	2017-09-05
公开（公告）号：	CN107526600B	公开（公告）日：	2020-11-10
发明（设计）人：	普雪飞;竹登虎;勇萌哲;钟颖;杨佑禄	申请（专利权）人：	成都优易数据有限公司
主分类号：	G06F8/34	分类号：	G06F8/34;G06F16/26
代理公司：	成都弘毅天承知识产权代理有限公司 51230	代理人：	廖祥文
地址：	611730 四川省成都市郫县德源镇（菁***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 hadoop spark 可视化数据挖掘分析平台及其清洗方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于hadoop和spark的可视化数据挖掘分析平台，其特征在于，该平台包括数据管理模块、工作流管理模块、算子管理模块及算子运行调度管理模块；其中，数据管理模块，对整个系统中的数据文件进行管理，通过http协议将数据从本地上传到系统的hdfs中，供平台中的算子使用；工作流管理模块，对平台中的工作流进行管理、增删改查，工作流是各个算子按执行顺序连接起来构成的数据挖掘分析流程；算子管理模块，对平台中封装的各类spark算子进行管理，平台对这些算子进行图形化封装，通过拖动算子对应的图形并通过连线连接各个算子，构建数据挖掘分析工作流；算子运行调度管理模块，对平台中的算子构建的工作流运行进行管理；

所述平台的数据清洗方法,包括以下步骤：

S0基于hadoop和spark框架，在平台中对spark中与数据处理相关的算子进行图形化封装；

S1数据上传：通过http协议将数据从本地上传到平台的hdfs中；

S2算子集成：通过spark dataframe的算子封装格式，在平台中集成添加各类

dataframe算子；

S3算子管理：在dataframe算子集成中，利用spark dataframe算子分类目录式管理方法，将不同dataframe算子按功能进行分类，平台按分类结果对算子进行可视化的管理及展示，并形成分类目录；

S4数据清洗流程构建：自由拖拽分类目录中的dataframe算子至工作流编辑区，在满足前后逻辑正确的情况下任意构建数据清洗流程；

S5导入功能:导入之前已建立并保存在本地的工作流,该工作流以xml的形式保存，系统通过解析xml文件在系统中还原并建立该工作流；

S6自定义数据清洗功能:在算子管理的分类目录中添加脚本编写算子，通过该算子提供的脚本编辑窗口进行spark脚本编写，并通过定义数据的输入和输出接口与其他算子间的前后数据交互；

S7保存已搭建好的建模工作流；

S8启动建模工作流，后台执行数据清洗；

S9查看工作流运行结果。