[发明专利]一种基于云计算的分布式决策树学习系统有效
申请号: | 202010291696.3 | 申请日: | 2020-04-14 |
公开(公告)号: | CN111695588B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 于浩;李雨来;陈震 | 申请(专利权)人: | 北京迅达云成科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/22 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 安琪 |
地址: | 100000 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 计算 分布式 决策树 学习 系统 | ||
本发明提供了一种基于云计算的分布式决策树学习系统,包括:分布模块,随机分布目标数据到数据输入节点;扫描模块,对目标数据进行扫描处理,并构建元属性数据库;抽取模块,当主备节点向映射节点发送第一任务请求时,控制映射节点从数据输入节点抽取第一目标数据对;输出模块,当主备节点向规约节点发送第二任务请求时,控制规约节点从第一目标数据对中选择第一分裂属性,并输出第二目标数据对;记录模块,记录第二目标数据对,及确定的决策位置,将其保存到模型数据节点中;第一构建模块,根据输出结果和记录结果构建决策树,并重复执行后续操作,直到决策树构建完成。便于支持在大规模数据上快速构建决策树,具有非常强的工程实用价值。
技术领域
本发明涉及云计算技术领域,特别涉及一种基于云计算的分布式决策树学习系统。
背景技术
传统的基于信息熵增益构建的决策树算法并不是针对大量数据实现的,原因是决策树算法运行在一台计算机上,并且对应的数据需要全部放到内存中。但是由于在大数据时代,数据是海量的,且分布在云计算分布式平台上,如何构建新的基于云计算分布式系统的决策树学习系统变成了一个非常关键的问题。在这种情况下,面临的难题是:
1.数据是海量的,不能一次存放到内存中;
2.数据是分布式的,不能只在一台计算机系统上;
3.传统的决策树算法基本上完全不可用;
4.用于决策树学习的数据属性可能非常多。
因此,为了解决以上难题,本发明在云计算平台上,构建了基于Map-Reduce(映射-规约)的决策树学习系统。
发明内容
本发明提供一种基于云计算的分布式决策树学习系统,用以通过分裂属性及信息熵增益,构建基于映射-规约结构的决策树算法,其支持在大规模数据上快速构建决策树,具有非常强的工程实用价值。
本发明实施例提供一种基于云计算的分布式决策树学习系统,包括:
分布模块,用于将目标数据随机分布到若干个数据输入节点;
扫描模块,用于在所述分布模块执行分布操作之前,对所述目标数据进行扫描处理,并构建元属性数据库;
抽取模块,用于当主备节点向映射节点发送第一任务请求时,控制所述映射节点根据所述第一任务请求,并基于所述元属性数据库,从对应的数据输入节点中抽取第一目标数据对;
输出模块,用于当所述主备节点向规约节点发送第二任务请求时,控制所述规约节点根据所述第二任务请求,并基于信息熵增益方法,从对应的所述映射节点抽取的第一目标数据对中选择相应的第一分裂属性,并输出与第一分裂属性相关的第二目标数据对;
记录模块,用于记录根据所述输出模块输出的第二目标数据对,确定的决策位置,并将所述第二目标数据对保存到与决策位置相关的模型数据节点中;
第一构建模块,用于根据所述输出模块的输出结果和所述记录模块的记录结果构建决策树,并控制所述抽取模块、输入模块和记录模块重复执行相应的操作,直到所述决策树构建完成。
在一种可能实现的方式中,还包括:
确定模块,用于在所述抽取模块执行抽取操作之前,确定基于所述元属性数据库确定的第一属性集合A中的每个选择属性的信息熵增益;
所述确定模块,包括:
第一计算子模块,用于当选择属性Ai分裂数据前,根据公式(1)计算得到所述选择属性Ai分裂数据前对应的第一数据的信息熵E(X);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京迅达云成科技有限公司,未经北京迅达云成科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010291696.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种虚拟机的监控方法和监控装置
- 下一篇:一种IPV6网络定位方法及装置