[发明专利]一种基于云计算的分布式决策树学习系统有效

申请号：	202010291696.3	申请日：	2020-04-14
公开（公告）号：	CN111695588B	公开（公告）日：	2021-03-23
发明（设计）人：	于浩;李雨来;陈震	申请（专利权）人：	北京迅达云成科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/22
代理公司：	北京冠和权律师事务所 11399	代理人：	安琪
地址：	100000 北京市朝***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于计算分布式决策树学习系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于云计算的分布式决策树学习系统，包括：分布模块，随机分布目标数据到数据输入节点；扫描模块，对目标数据进行扫描处理，并构建元属性数据库；抽取模块，当主备节点向映射节点发送第一任务请求时，控制映射节点从数据输入节点抽取第一目标数据对；输出模块，当主备节点向规约节点发送第二任务请求时，控制规约节点从第一目标数据对中选择第一分裂属性，并输出第二目标数据对；记录模块，记录第二目标数据对，及确定的决策位置，将其保存到模型数据节点中；第一构建模块，根据输出结果和记录结果构建决策树，并重复执行后续操作，直到决策树构建完成。便于支持在大规模数据上快速构建决策树，具有非常强的工程实用价值。

技术领域

本发明涉及云计算技术领域，特别涉及一种基于云计算的分布式决策树学习系统。

背景技术

传统的基于信息熵增益构建的决策树算法并不是针对大量数据实现的，原因是决策树算法运行在一台计算机上，并且对应的数据需要全部放到内存中。但是由于在大数据时代，数据是海量的，且分布在云计算分布式平台上，如何构建新的基于云计算分布式系统的决策树学习系统变成了一个非常关键的问题。在这种情况下，面临的难题是：

1.数据是海量的，不能一次存放到内存中；

2.数据是分布式的，不能只在一台计算机系统上；

3.传统的决策树算法基本上完全不可用；

4.用于决策树学习的数据属性可能非常多。

因此，为了解决以上难题，本发明在云计算平台上，构建了基于Map-Reduce(映射-规约)的决策树学习系统。

发明内容

本发明提供一种基于云计算的分布式决策树学习系统，用以通过分裂属性及信息熵增益，构建基于映射-规约结构的决策树算法，其支持在大规模数据上快速构建决策树，具有非常强的工程实用价值。

本发明实施例提供一种基于云计算的分布式决策树学习系统，包括：