[发明专利]异构系统并行随机森林优化方法和系统在审
申请号: | 201510591067.1 | 申请日: | 2015-09-16 |
公开(公告)号: | CN105046382A | 公开(公告)日: | 2015-11-11 |
发明(设计)人: | 王娅娟;张广勇;吴韶华;沈铂;卢晓伟;张清 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 解婷婷;曲鹏 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 系统 并行 随机 森林 优化 方法 | ||
技术领域
本发明涉及机器学习领域,尤指一种异构系统并行随机森林优化系统和方法。
背景技术
近年来,随着当今社会经济科技日新月异的发展,许多应用领域在迅速积累着大量的数据,对这些数据进行分析以发掘数据蕴含的信息,成为几乎所有领域的共同需求,而在实际应用中,机器学习在数据挖掘分析技术的作用日渐重要,受到了广泛的关注。
现有技术中,机器学习中最常用的分类方法就是采用随机森林算法,随机森林是一种有监督的集成学习分类技术,是通过大量分类树的汇总来提高模型的预测精度。正是由于它的这种设计使得随机森林算法对样本数据中的不正常数据和噪声等有很好的容忍性,对于数据比较复杂的分类问题有着较好的并行性和扩展性。
但是,采用现有技术,数据优化过程中寻找最优解时间比较长,在当前这个数据量以指数级增长的时代,显然对于超大数据的处理显得力不从心。
发明内容
为了解决上述技术问题,本发明提供了一种异构系统并行随机森林优化系统和方法,能够通过多个从节点对数据分片并行计算,从而加快了寻找最优解的时间,使得整个系统效率大幅提升,不需受限于网络带宽不足、内存容量小等情况,满足了高性能应用对于大规模数据进行处理的要求。
第一方面,本发明提供了一种异构系统并行随机森林优化系统,应用于中央处理器与协处理器混合异构集群,包括:一个主节点和多个从节点;
所述主节点用于将待计算的数据文件划分成多个数据分片,分别发送数据分片给各所述从节点,接收各所述从节点构建好的决策树生成随机森林;
所述从节点用于接收所述主节点分配的所述数据分片进行计算,将计算后的最优解构建决策树发送到所述主节点。
第二方面,本发明提供了一种异构系统并行随机森林优化方法,应用于异构系统并行随机森林优化系统,其特征在于,所述系统包括:一个主节点和多个从节点;
所述主节点调用将待计算的数据文件划分成多个数据分片,分别发送数据分片给各所述从节点,接收各所述从节点构建好的决策树生成随机森林;
所述从节点接收所述主节点分配的所述数据分片进行计算,将计算后的最优解构建决策树发送到所述主节点。
与现有技术相比,本发明提供了一种异构系统并行随机森林优化系统和方法,包括:一个主节点和多个从节点;其中,主节点用于将待计算的数据文件划分成多个数据分片,分别发送数据分片给各从节点,各从节点用于接收主节点分配的数据分片进行计算,将计算后的最优解构建决策树发送到主节点,从而生成随机森林,通过多个从节点对数据分片并行计算,从而加快了寻找最优解的时间,使得整个系统效率大幅提升,不需受限于网络带宽不足、内存容量小等情况,满足了高性能应用对于大规模数据进行处理的要求。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例提供的异构系统并行随机森林优化系统实施例一的结构示意图;
图2为本发明实施例提供的异构系统并行随机森林优化方法实施例一的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明实施例涉及的异构系统并行随机森林优化系统,应用于中央处理器与协处理器混合异构集群,具体可以是计算机集群或者服务器集群上,其中协处理器可以是图形处理器(GraphicsProcessingUnit,简称:GPU)或者众核处理器(IntelManyIntegratedCore,简称:MIC卡),但并不以此为限。
本发明实施例涉及的系统和方法,旨在解决现有技术中采用随机森林的分类方法数据在优化过程中寻找最优解时间比较长,无法满足超大规模数据处理的技术问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510591067.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理