[发明专利]一种基于云计算的分布式决策树学习系统有效
申请号: | 202010291696.3 | 申请日: | 2020-04-14 |
公开(公告)号: | CN111695588B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 于浩;李雨来;陈震 | 申请(专利权)人: | 北京迅达云成科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/22 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 安琪 |
地址: | 100000 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 计算 分布式 决策树 学习 系统 | ||
1.一种基于云计算的分布式决策树学习系统,其特征在于,包括:
分布模块,用于将目标数据随机分布到若干个数据输入节点;
扫描模块,用于在所述分布模块执行分布操作之前,对所述目标数据进行扫描处理,并构建元属性数据库;
抽取模块,用于当主备节点向映射节点发送第一任务请求时,控制所述映射节点根据所述第一任务请求,并基于所述元属性数据库,从对应的数据输入节点中抽取第一目标数据对;
输出模块,用于当所述主备节点向规约节点发送第二任务请求时,控制所述规约节点根据所述第二任务请求,并基于信息熵增益方法,从对应的所述映射节点抽取的第一目标数据对中选择相应的第一分裂属性,并输出与第一分裂属性相关的第二目标数据对;
记录模块,用于记录根据所述输出模块输出的第二目标数据对,确定的决策位置,并将所述第二目标数据对保存到与决策位置相关的模型数据节点中;
第一构建模块,用于根据所述输出模块的输出结果和所述记录模块的记录结果构建决策树,并控制所述抽取模块、输入模块和记录模块重复执行相应的操作,直到所述决策树构建完成;
确定模块,用于在所述抽取模块执行抽取操作之前,确定基于所述元属性数据库确定的第一属性集合A中的每个选择属性的信息熵增益;
所述确定模块,包括:
第一计算子模块,用于当选择属性Ai分裂数据前,根据公式(1)计算得到所述选择属性Ai分裂数据前对应的第一数据的信息熵E(X);
其中,pg表示处于类g的训练数据实例的概率,即若所述目标数据对应的数据集合D中有N个数据实例,处于决策树中,用于分类的总G类中,且属于类g的数据实例个数是Ng,则
第二计算子模块,用于当所述选择属性Ai分裂数据后,根据公式(2)和(3)得到所述选择属性Ai分裂数据后对应的第二数据的混合信息熵E′(X);
其中,n表示选择属性Ai分裂数据后得到的分支个数;Nij表示节点i上记录的选择属性Ai分裂数据后处于分支j的数据个数;Ni表示在节点i上记录的数据总个数;K表示决策树用于分类的类个数;表示数据实例属于类c,且在分支j上的数据实例的概率;
其中,表示节点i得到分支j属于类c的数据实例的个数;Nij表示节点i上记录的选择属性Ai分裂数据后处于分支j的数据个数;Vc(Nij)表示类c的总属性对应的分支j的所有数据的方差;表示属于类c的属性是Ai的分支j的数据值;表示属于类c的属性是Ai的分支j的数据值的平均值;
确定子模块,用于根据所述第一计算子模块得到的信息熵E(X)和所述第二计算子模块得到的混合信息熵E′(X),同时根据公式(4)确定所述选择属性Ai的信息熵增益I(X);
I(X)=E(X)-E′(X) (4)。
2.如权利要求1所述的系统,其特征在于,还包括:
排序模块,用于基于所述确定子模块确定的信息熵增益,获取从对应的所述映射节点抽取的所有第一目标数据对对应的信息熵增益,并对获取的与第一目标数据对对应的所有信息熵增益进行优先级排序,得到优先级排序结果中的最大信息熵增益;
其中,所述最大信息熵增益对应的选择属性作为第一分裂属性。
3.如权利要求1所述的系统,其特征在于,
所述第一目标数据对包括:所述第一目标数据所处位置的节点及节点标号、与第一目标数据相关的属性及属性名称、所述属性的信息熵增益值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京迅达云成科技有限公司,未经北京迅达云成科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010291696.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种虚拟机的监控方法和监控装置
- 下一篇:一种IPV6网络定位方法及装置