[发明专利]一种基于R语言的机器学习建模平台架构设计方法有效
申请号: | 201710684578.7 | 申请日: | 2017-08-11 |
公开(公告)号: | CN107423823B | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 竹登虎;勇萌哲 | 申请(专利权)人: | 成都优易数据有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 徐金琼;刘东 |
地址: | 611730 四川省成都市郫县德源镇(菁*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语言 机器 学习 建模 平台 架构 设计 方法 | ||
1.一种基于R语言的机器学习建模平台架构设计方法,其特征在于:搭建基于R语言的可视化机器学习算子,利用Oozie组件将所述机器学习算子中的R算子分配到不同的Hadoop集群计算节点,所述Hadoop集群计算节点调用HDFS组件管理的数据,并按机器学习算子的逻辑关系进行计算,得到机器学习算子的最终结果;
实现该方法的具体步骤如下:
S201:利用建模平台搭建基于R语言的可视化机器学习算子,所述机器学习算子中包括n个R算子,所述n个R算子的数据流向由第1算子流向第n算子;
S202:利用Oozie组件将n个R算子动态分配到不同的Hadoop集群计算节点上;
S203:第1算子所在的计算节点从所述HDFS组件管理的建模数据源中下载数据源,并调用本地R运行环境执行第1算子的数据处理功能,在计算完成后将计算结果上传到HDFS组件管理的临时路径TmpPath;
S204:依次对第2算子至第n-1算子进行计算,即各R算子对应的计算节点从所述临时路径TmpPath中下载数据,并调用本地R运行环境执行R算子的数据处理功能,在计算完成后将计算结果上传到所述临时路径TmpPath,每次上传的计算结果覆盖临时路径TmpPath内储存的数据;
S205:第n算子所在的计算节点从临时路径TmpPath中下载数据,并调用本地R运行环境执行第n算子的数据处理功能,在计算完成后将计算结果上传到HDFS组件管理的ModelPath下,所述ModelPath下储存的数据为所述机器学习算子的最终计算结果。
2.根据权利要求1所述的一种基于R语言的机器学习建模平台架构设计方法,其特征在于:所述步骤S201中,机器学习算子搭建的步骤如下:
S301:用户利用R算子固有的封装格式,在WEB应用建模平台添加各类R算子,并按功能进行分类;
S302:所述WEB应用建模平台按分类结果设定分类目录,并进行可视化的管理和展示;
S303:自由拖拽所述分类目录中的n个R算子至工作流编辑区,并按一定的逻辑关系进行连线,完成机器学习算子的搭建。
3.根据权利要求1所述的一种基于R语言的机器学习建模平台架构设计方法,其特征在于:所述步骤S202中,所述Oozie组件对R算子进行分配的步骤为:
S401:为各个R算子编写一个Shell脚本文件,用于接收所述建模平台中该R算子的配置参数;
S402:将所有的Shell脚本文件上传到Oozie组件配置在HDFS组件中的存放地址;
S403:根据所述机器学习算子的逻辑关系,Oozie组件的调度单元生成调用各个R算子对应Shell脚本文件的Oozie调度配置文件;
S404:启动Oozie组件,根据Oozie调度配置文件完成对各个R算子对应Shell脚本文件在Hadoop集群计算节点中的调度分发。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都优易数据有限公司,未经成都优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710684578.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种窗式PM2.5清除装置
- 下一篇:空气净化器