[发明专利]一种基于深度强化学习的不平衡分类决策树生成方法在审
申请号: | 202110500508.8 | 申请日: | 2021-05-08 |
公开(公告)号: | CN113095501A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 温桂铉;吴开贵 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06N5/00 | 分类号: | G06N5/00 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 武君 |
地址: | 400030 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 不平衡 分类 决策树 生成 方法 | ||
1.一种基于深度强化学习的不平衡分类决策树生成方法,其特征在于,包括以下步骤:
步骤(1):数据预处理;对数据集D包含特征进行依次编号,同时把数据集归一化到[0,1]区间并且提取每个特征的p分位数;
步骤(2):决策树生成过程的状态空间表示;对决策树中的决策节点以及决策树整体进行向量表示;
步骤(3):决策树生成过程的动作空间表示;把决策树生成过程中节点位置选择、节点操作选择、划分特征选择以及划分阈值选择对应到马尔可夫决策过程中的动作空间;
步骤(4):利用常见的不平衡分类评估指标设计奖励函数;
步骤(5):把决策树生成过程建模成标准的马尔可夫决策过程,并运用已有的深度强化学习算法进行求解最优生成策略和决策树结构。
2.如权利要求1所述的基于深度强化学习的不平衡分类决策树生成方法,其特征在于:步骤(1)中对于任意一个包含m个连续特征的数据集D,把特征依次编码为ID={1,2,3,...,m},在把数据集归一化到[0,1]区间后,提取每个特征的n个分位数,得到一个阈值矩阵K
其中kij表示第j个特征的第i个分位数,0<i<n,0<i<m,通常n=9,即k·j={10%,20%,30%,40%,50%,60%,70%,80%,90%}分位数。
3.如权利要求2所述的基于深度强化学习的不平衡分类决策树生成方法,其特征在于:在所述步骤(2)中,针对任意二分类决策树结构,编码时均忽略叶子节点,只对决策节点进行编码。
4.如权利要求3所述的基于深度强化学习的不平衡分类决策树生成方法,其特征在于:在所述步骤(2)中,对于一个以第m个特征,阈值k作为划分的决策节点Nodekm,它的向量表示为[IDm,k],向量化的决策树与原始决策树保持相同的结构。
5.如权利要求4所述的基于深度强化学习的不平衡分类决策树生成方法,其特征在于:在所述步骤(3)中,在定义决策树生成的动作空间时,需首先给定满二叉决策树的最大节点数N,并对节点按照层次遍历或先序遍历等方式对节点位置进行编号,节点位置选择的动作空间Ap={1,2,...,N},决策节点操作有添加、删除、修改三种方式,得节点操作选择的动作空间Ao={add,delete,update};再根据步骤(1)对特征的编码ID以及阈值矩阵K,划分特征选择和划分阈值选择的动作空间分别为Af={1,2,...,m}以及As={1,2,...,n},最终,决策树生成过程的动作空间A={Ap,Ao,Af,As}。
6.如权利要求4所述的基于深度强化学习的不平衡分类决策树生成方法,其特征在于:在所述步骤(4)中,奖励函数的设计依赖于生成过程每一棵中间形态决策树分类结果,假设在时刻t,对应的中间形态决策树Tt,可直接使用Tt对数据集D进行分类,根据分类结果应用F-measure、G-mean等常见的不平衡分类评价指标对Tt的分类性能进行评估,得到评估结果scoret。最后scoret与上一时刻的评估结果相减即可得到当前时刻的奖励rt;将score0设为0.5或则0,当score0=0时,累计奖励则等同于最终决策树模型的评估得分,而score0=0.5相当于给最终决策树模型增加一个基准线,即最终决策树模型相比随机分类性能优异多少,
rt=scoret-scoret-1。
7.如权利要求6所述的基于深度强化学习的不平衡分类决策树生成方法,其特征在于:在所述步骤(5)中,决策树的生成过程对应的马尔可夫决策过程可以描述为如下:在某一时刻t,智能体观测到环境中的决策树Tt并根据自身的策略做出动作at=(apt,aot,aft,ast),紧接着环境根据动作at对决策树Tt做出更新;环境对Tt的第apt位置进行aot操作,若aot为添加操作,则在apt位置添加一个以第aft个特征和该特征的第ast个分位数作为划分的节点;若aot为修改操作,则把apt位置的节点的划分特征和阈值修改成第aft个特征和该特征的第ast个分位数;若aot为删除操作,则直接删除apt位置的节点;在更新后,决策树Tt变为Tt+1,并使用Tt+1对数据集D进行分类,同时计算奖励rt;最终环境反馈给智能体决策树Tt+1和奖励rt,交互结束的条件是交互次数达到最大值或则累计奖励收敛不再增长。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110500508.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种一体化天线组件及天线阵列
- 下一篇:一种煤矿用多功能环境监测设备