[发明专利]一种基于深度强化学习的不平衡分类决策树生成方法在审
申请号: | 202110500508.8 | 申请日: | 2021-05-08 |
公开(公告)号: | CN113095501A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 温桂铉;吴开贵 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06N5/00 | 分类号: | G06N5/00 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 武君 |
地址: | 400030 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 不平衡 分类 决策树 生成 方法 | ||
本发明提供一种基于深度强化学习的不平衡分类决策树生成方法,包括以下步骤:步骤(1):数据预处理;对数据集D包含特征进行依次编号,同时把数据集归一化到[0,1]区间并且提取每个特征的p分位数;步骤(2):决策树生成过程的状态空间表示;对决策树中的决策节点以及决策树整体进行向量表示;步骤(3):决策树生成过程的动作空间表示;把决策树生成过程中节点位置选择、节点操作选择、划分特征选择以及划分阈值选择对应到马尔可夫决策过程中的动作空间;步骤(4):利用常见的不平衡分类评估指标设计奖励函数;步骤(5):把决策树生成过程建模成标准的马尔可夫决策过程,并运用已有的深度强化学习算法进行求解最优生成策略和决策树结构。
技术领域
本发明属于机器学习领域,涉及一种用于不平衡分类的决策树生成方法,可适用于数据偏斜、特征连续情况下的二分类问题。
背景技术
近十年机器学习算法被广泛应用于实际问题并取得巨大成功。然而,异常检测、疾病诊断和异常行为识别等领域收集的数据通常存在不平衡的问题,这是机器学习算法在实际应用过程中必须要解决的困难之一。更重要的是,少数类样本要比多数类更为重要。例如,在癌症诊断中,健康个体的样本数可以是癌症患者样本的上千倍,但算法的目的是要正确诊断出患有癌症的个体。许多机器学习算法最初提出时并没有考虑数据偏斜的情况,所以这些算法在处理不平衡的分类问题时失效。随着机器学习的发展,解决不平衡分类的算法也陆续提出,总体上可分类两大类:数据层面和算法层面。前者的主要思想是通过不同的重采样技术重新平衡数据的分布,如随机欠采样(RUS),随机过采样(ROS)和SMOTE等。相比之下,后者则通过给不同的类或样本分配权值或代价调整原始算法,减少类别间样本量造成的偏差。
决策树不仅是机器学习领域最为简单的算法之一,并且拥有良好的解释性。通常,决策树模型的构建过程可以被认为是一个贪心算法,即在每一个决策节点都选择局部最优的特征对数据进行划分。经典决策树算法的划分准则是信息增益(Information Gain,IG),它是一种基于样本不纯度的划分方式。但是因为在信息增益的计算中必须要使用样本类别信息的先验概率,这使得基于信息增益的决策树算法在面临数据不平衡的情况时偏向于多数类,从而降低分类性能。为了改进经典决策树算法无法适用于不平衡分类的缺点,两种新的节点划分准则被提出,分别是海林格距离(Hellinger Distance)和类别置信比例(ClassConfidence Proportion,CCP)。海林格距离是F散度的一种,它能够衡量两个分布之间的相似程度。通过使用各个划分的标准化频率代替类别的先验概率,因此海林格距离是一种对数据分布不敏感的衡量方式。类别置信比例是对C4.5决策树算法的一种改进,它用于代替原算法中的置信度。基于上述两种改进划分准则的决策树算法尽管能在数据不平衡的情况下具有优异的性能表现。但是,基于海林格距离的决策树算法通过计算不同类别条件下的误差生成更高纯度的叶子节点,这会导致算法在平衡数据集上效果欠佳。同样地,基于类别置信比例的决策树算法在面临两种划分的信息增益相同时,应用海林格距离做进一步区分,所以该算法也面临同样的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110500508.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种一体化天线组件及天线阵列
- 下一篇:一种煤矿用多功能环境监测设备