[发明专利]一种基于R语言的机器学习建模平台架构设计方法有效

专利信息
申请号: 201710684578.7 申请日: 2017-08-11
公开(公告)号: CN107423823B 公开(公告)日: 2020-11-10
发明(设计)人: 竹登虎;勇萌哲 申请(专利权)人: 成都优易数据有限公司
主分类号: G06N20/00 分类号: G06N20/00
代理公司: 成都弘毅天承知识产权代理有限公司 51230 代理人: 徐金琼;刘东
地址: 611730 四川省成都市郫县德源镇(菁*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语言 机器 学习 建模 平台 架构 设计 方法
【说明书】:

发明公开了一种基于R语言的机器学习建模平台架构设计方法,搭建基于R语言的可视化机器学习算子,利用Oozie组件将所述机器学习算子中的R算子分配到不同的Hadoop集群计算节点,所述Hadoop集群计算节点调用HDFS组件管理的数据,并按机器学习算子的逻辑关系进行计算,得到机器学习算子的最终结果;采用该方法实现基于R语言的可视化机器学习算子的分布式计算,不仅使该建模平台拥有R语言丰富的机器学习算子和高效灵活的编程体系,R算子由Oozie流程控制组件自适应调度到不同的Hadoop集群计算节点上,实现了集群负载的均衡,多用户高容量的并发建模计算。

技术领域

本发明属于大数据分析处理领域,具体涉及一种基于R语言的机器学习建模平台架构设计方法,用于对机器学习算子进行分布式计算。

背景技术

大数据分析处理平台基于分布式计算架构和机器学习算子,用于解决超大数据规模条件下的数据挖掘建模问题。然而在平台的实际使用过程中发现,小数据量规模的输入数据及建模需求才是主要的使用形态,而分布式的处理架构对小输入数据量的处理并没有明显的效率优势,反而会有较明显的数据交互时延问题;同时,受限于当前支持分布式计算的机器学习算子的数量问题,平台在完全的分布式处理架构下的建模能力不如单机条件下的建模功能强大。

R语言是数据挖掘领域的常用单机化建模工具,其拥有丰富的机器学习算子和高效灵活的编程体系,若能将R语言的优势与当前平台的分布式架构相结合,将能极大的增强平台的算子丰富度,提高小数据量下的建模执行效率,以及解决单机化下的多用户平台接入容量受限问题。

然而R语言的机器学习算子是一个单机的程序,只能在一台电脑上运行,若把不同的R算子分配到不同的电脑上运行,则前后关联的算子间的数据传输便会无法执行;同时R算子目前不支持分布式数据的读取,也不能把输出结果自动存储到分布式集群中。若是多个用户都集中到某台服务器上执行机器学习任务,则当前服务器很可能会负荷超标,影响使用体验。

发明内容

本发明的目的在于:提供一种一种基于R语言的机器学习建模平台架构设计方法,解决了不能对R算子进行分布式计算的技术问题。

本发明采用的技术方案如下:

一种基于R语言的机器学习建模平台架构设计方法,搭建基于R语言的可视化机器学习算子,利用Oozie组件将所述机器学习算子中的R算子分配到不同的Hadoop集群计算节点,所述Hadoop集群计算节点调用HDFS组件管理的数据,并按机器学习算子的逻辑关系进行计算,得到机器学习算子的最终结果。

进一步的,实现该方法的具体步骤如下:

S201:利用建模平台搭建基于R语言的可视化机器学习算子,所述机器学习算子中包括n个R算子,所述n个R算子的数据流向由第1算子流向第n算子;

S202:利用Oozie组件将n个R算子动态分配到不同的Hadoop集群计算节点上;

S203:第1算子所在的计算节点从所述HDFS组件管理的建模数据源中下载数据源,并调用本地R运行环境执行第1算子的数据处理功能,在计算完成后将计算结果上传到HDFS组件管理的临时路径TmpPath;

S204:依次对第2算子至第n-1算子进行计算,即各R算子对应的计算节点从所述临时路径TmpPath中下载数据,并调用本地R运行环境执行R算子的数据处理功能,在计算完成后将计算结果上传到所述临时路径TmpPath,每次上传的计算结果覆盖临时路径TmpPath内储存的数据;

S205:第n算子所在的计算节点从临时路径TmpPath中下载数据,并调用本地R运行环境执行第n算子的数据处理功能,在计算完成后将计算结果上传到HDFS组件管理的ModelPath下,所述ModelPath下储存的数据为所述机器学习算子的最终计算结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都优易数据有限公司,未经成都优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710684578.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top