[发明专利]一种基于离散弱相关的云平台决策森林分类方法有效
申请号: | 201510133866.4 | 申请日: | 2015-03-25 |
公开(公告)号: | CN104679911B | 公开(公告)日: | 2018-03-27 |
发明(设计)人: | 袁景凌;陈旻骋;刘永坚;杨光 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉开元知识产权代理有限公司42104 | 代理人: | 潘杰 |
地址: | 430070 湖北省*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 离散 相关 平台 决策 森林 分类 方法 | ||
技术领域
本发明涉及云计算领域,具体是指一种基于离散弱相关的云平台决策森林分类方法。
背景技术
随机分裂技术构建多棵决策树,通过投票得到最终预测结果。随机森林是由许多决策树集成在一起的分类器,如果把决策树看成分类任务中的一个专家,随机森林就是许多专家在一起对某种任务进行分类。
目前,随着大数据时代的到来,数据的规模不断的增大以及数据的属性维度的连续增加,传统的随机森林分类方法不能有效地处理海量规模数据,不能高效、快速地完成分类预测。因此针对海量、高维的数据,不少学者提出了基于云平台的分布式随机森林分类方法,虽然这些方法能够快速地完成数据的分类预测工作。但是空间效率及分类精度并不尽如人意。
为了解决这个问题,需要研究怎样在保证分类时间效率的同时,减少云平台随机森林方法的空间开销,提高分类精度。对随机森林离散弱相关化是一种有效手段。离散弱相关化是指随机森林在随机抽样的基础上,根据数据集属性之间的相关程度,选取若干个属性构成属性组,并增量更新属性组中概率离散化的连续属性。以此来提高云平台决策森林分类效率。
发明内容:
本发明的目的是为了解决上述背景技术存在的不足,提出一种基于离散弱相关的云平台决策森林分类方法,减少了时间和空间开销,增强抗数据噪音的能力,并提高了分类质量。
为了解决上述技术问题本发明的技术方案为:
一种基于离散弱相关的云平台决策森林分类方法,其特征在于,该方法包括如下步骤:步骤一,生成使云平台决策森林最优的描述文件,所述描述文件包括决策树的最优总数及每棵决策树的新数据集dataset;步骤二,确定每棵决策树弱相关化随机抽样属性元组;步骤三,依次对步骤二所得各个决策树的弱相关化随机抽样属性元组中概率离散化的连续属性进行增量更新,求得其中最大增益属性;步骤四,重复步骤三获得分类属性序列,建立云平台决策森林并分类。
较佳地,所述步骤一中所述决策树的最优总数是通过以下方法获得的:用云平台的Data_Node节点个数乘以各节点统一设定的Reduce任务数,用所求得的积开方的2倍除以m得到决策森林中决策树的最优总数,其中m取其中p是新数据集dataset中属性的维数。
较佳地,所述步骤一中所述新数据集dataset是通过以下方法获得的:通过bootstrap抽样方法为云平台中的每棵决策树抽取训练样本,获得每棵决策树的新数据集dataset。
较佳地,所述步骤二具体包括以下步骤:21)为步骤一所得每棵决策树随机抽取2m个属性,并使用Map函数通过TF-IDF逆文档频率计算离散属性相关程度,通过协方差矩阵计算连续属性相关程度,其中m取其中p是新数据集dataset中属性的维数;22)对步骤21)所得结果进行收集,计算抽样属性与其他决策树的已建树属性的相关性均值,对每个抽样属性的相关性均值进行快速排序,找出相关性最小的m个属性,构成每棵决策树的弱相关化随机抽样属性元组;23)针对每棵决策树对应的弱相关化随机抽样属性元组,初始化Map任务,并将所述随机抽样属性元组映射到对应的云平台节点上。
较佳地,所述步骤三是对每棵决策树进行以下操作:31)对每棵决策树的弱相关化随机抽样属性元组中的连续属性进行离散化;32)通过更新函数用已离散化的属性替换描述文件中数据集的原连续属性,并得到替换后的随机抽样属性元组;33)将替换后的随机抽样属性元组划分为数个候选分裂属性子集,各个候选分裂属性子集由对应云平台节点子线程处理,每个子线程在自己对应的候选分裂属性子集上计算所有属性的信息增益,统计得到最大增益属性。
较佳地,所述步骤31)是根据连续属性的概率密度函数进行离散化。
较佳地,所述步骤33)所得结果包括所对应的属性名称和最大的信息增益值,以键值对表示。
较佳地,所述步骤33)所得结果还包括各个云平台节点的分裂属性和分裂点,所述分裂属性和分裂点是通过以下方式得到的:调用Reduce函数统计包含属性名称和最大的信息增益值的各键值对,选择分裂值最优的属性值作为该节点的分裂属性和分裂点,所得结果包括分裂点编号和分裂规则,以键值对表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510133866.4/2.html,转载请声明来源钻瓜专利网。