[发明专利]一种属性子空间加权的随机森林数据处理方法有效
申请号: | 201410734550.6 | 申请日: | 2014-12-04 |
公开(公告)号: | CN104391970B | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 赵鹤;黄哲学;姜青山;吴胤旭;陈会 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/38 |
代理公司: | 深圳市铭粤知识产权代理有限公司44304 | 代理人: | 孙伟峰 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 种属 性子 空间 加权 随机 森林 数据处理 方法 | ||
1.一种属性子空间加权的随机森林数据处理方法,其特征在于,所述方法包括:
S1、对需要进行训练的数据样本集通过有放回抽样的方式抽取跟需要建立的决策树数目一致的N个样本子集;
S2、对每个样本子集构建无剪枝的决策树模型,在构建决策树模型的节点时,采用信息增益法先对所有参与节点构建的属性进行加权,从中选出权重最高的M个属性参与节点构建;
S3、将构建的N个决策树模型合并成一个大的随机森林模型;
所述步骤S2中的决策树模型采用单机多核多线程方式或多机并行分布式方式进行构建;
所述步骤S2中的决策树模型采用单机多核多线程方式进行构建,具体包括:
自动开启跟CPU核数一样多的线程,每个线程从进程列表中获取一个建树信息后并开始进行根据该信息进行建树,每建完一颗树,就将建好的决策树模型放到随机森林中;
每个线程同时并行地完成建树的过程,直到所有的建树信息分发完成,最后由随机森林合并所有的决策树得到最后的随机森林模型;
或者所述步骤S2中的决策树模型采用多机并行分布式方式进行构建,主节点负责总体建模的调度,从节点负责具体的建树过程,具体包括:
主节点中的进程保存所有建树的信息,并将建树信息分成多个进程列表;
根据需要启动其他机器上的从节点进行建树,每个从节点从主节点中获取一个进程列表,然后在自己的机器上独立构建决策树并生成子随机森林;
每个从节点将各自构建的子随机森林放回到主节点中,由主节点将所有的子随机森林合并得到最终的随机森林模型。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2还包括:
进程列表负责建树信息的分发,当所需要构建的树被分发完成之后,通知森林完成的情况。
3.根据权利要求1所述的方法,其特征在于,所述从节点所在的机器为非多核机器时,采用随机森林算法的串行方式进行建模。
4.根据权利要求1所述的方法,其特征在于,所述步骤S2还包括:
当在处理大数据时,主节点无法存放所有的数据信息,此时,进程的进程列表中就保存各个数据分块在各台机器上的分布情况,从节点则在建树的过程中根据分布情况从其他机器上获取所需要的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410734550.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:业务重分类装置和方法
- 下一篇:智能变电站ICD虚端子的图形化显示方法