[发明专利]标准化多维代价敏感决策树的集成分类器构建方法在审
申请号: | 201610486937.3 | 申请日: | 2016-06-28 |
公开(公告)号: | CN106611189A | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 金平艳;胡成华 | 申请(专利权)人: | 四川用联信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标准化 多维 代价 敏感 决策树 集成 分类 构建 方法 | ||
1.标准化多维代价敏感决策树的集成分类器构建方法,本发明涉及机器学习、人工智能以及数据挖掘领域,具体涉及一种标准化多维代价敏感决策树的集成分类器构建方法,其特征是,包括如下步骤:
步骤一:设原始训练集中有D个样本,原始训练集属性特征个数为n,F为分类器个数,T为测试数据集
步骤二:根据装袋法从D中随机出训练子集,从属性特征个数n中提取出属性特征子集个数
步骤三:由子集利用目标函数作为属性选择因子来构建基分类器,即构建一个标准化多维代价敏感决策树
步骤四:重复步骤2和步骤3,建立一个集成分类器
步骤五:测试集中数据,通过集成分类器中每棵决策树和运行记录的预测值,根据投票预测结果,得票最多的预测类作为此测试数据的最终类标号。
2.根据权利要求1中所述的标准化多维代价敏感决策树的集成分类器构建方法,其特征是,所述步骤一的具体表述过程如下:
步骤一:设原始训练集中有D个样本,原始训练集属性特征个数为n,F为基分类器个数,T为测试数据集
F为基分类器个数,其具体设定公式为:
F=1/2lnD。
3.根据权利要求1中所述的标准化多维代价敏感决策树的集成分类器构建方法,其特征是,所述步骤二的具体计算过程如下:
步骤二:从D中随机出训练子集,从属性特征个数n中提取出属性特征子集个数,其具体原理如下:
第一,从D中随机出训练子集具体描述为:从原数据集D中有放回的随机抽样N个样本更换原来的N,有些样本被抽中一次以上,以及有些样本一次都不被选中,这种抽样法大约有2/3的样本个数将被选中
第二,从原始属性特征个数n中提取出属性特征子集个数具体方法为:先把原始属性特征根据信息量进行排列,设置一个划分点H,在属性范围为高再从中选出个属性特征作为基分类器的分裂属性
根据信息属性值对原始属性特征n进行排序,其具体计算式如下:
上式分别为属性所对应的信息属性值,代表第i个属性的第j类属性值,为第i个属性的所有属性值的均值
根据的值从大到小对原始属性特征n进行排序,对排序后的属性n用H进行划分,即临界属性的确定
临界属性的确定具体判定条件为:
。
4.根据权利要求1中所述的标准化多维代价敏感决策树的集成分类器构建方法,其特征是,步骤四的具体表述过程如下:
步骤四:重复步骤二和步骤三,建立一个集成分类器,当满足以下条件,即停止构建单个决策树
假设t为基分类器初始个数,即初始t=0,完成一次步骤二和步骤三,即实行t++操作,当满足t=F时,停止重复步骤二和步骤三的操作。
5.根据权利要求1中所述的标准化多维代价敏感决策树的集成分类器构建方法,其特征是,步骤五的具体计算过程如下:
步骤五:测试集中数据,通过集成分类器中每棵决策树和运行记录的预测值,根据投票预测结果,得票最多的预测类作为此测试数据的最终类标号
投票预测:
这里为测试集数据x对应的类标号,为各基分类器分别对测试集数据x预测的类标号
选取类标号个数的最大值作为测试集数据x对应的类标号
投票预测具体公式为:
根据此判断出的最大值即为此测试数据对应的类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川用联信息技术有限公司,未经四川用联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610486937.3/1.html,转载请声明来源钻瓜专利网。