[发明专利]一种基于深度强化学习的不平衡分类决策树生成方法在审

申请号：	202110500508.8	申请日：	2021-05-08
公开（公告）号：	CN113095501A	公开（公告）日：	2021-07-09
发明（设计）人：	温桂铉;吴开贵	申请（专利权）人：	重庆大学
主分类号：	G06N5/00	分类号：	G06N5/00
代理公司：	北京汇泽知识产权代理有限公司 11228	代理人：	武君
地址：	400030 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习不平衡分类决策树生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的不平衡分类决策树生成方法，其特征在于，包括以下步骤：

步骤(1)：数据预处理；对数据集D包含特征进行依次编号，同时把数据集归一化到[0，1]区间并且提取每个特征的p分位数；

步骤(2)：决策树生成过程的状态空间表示；对决策树中的决策节点以及决策树整体进行向量表示；

步骤(3)：决策树生成过程的动作空间表示；把决策树生成过程中节点位置选择、节点操作选择、划分特征选择以及划分阈值选择对应到马尔可夫决策过程中的动作空间；

步骤(4)：利用常见的不平衡分类评估指标设计奖励函数；

步骤(5)：把决策树生成过程建模成标准的马尔可夫决策过程，并运用已有的深度强化学习算法进行求解最优生成策略和决策树结构。

2.如权利要求1所述的基于深度强化学习的不平衡分类决策树生成方法，其特征在于：步骤(1)中对于任意一个包含m个连续特征的数据集D，把特征依次编码为ID＝{1，2，3，...，m}，在把数据集归一化到[0，1]区间后，提取每个特征的n个分位数，得到一个阈值矩阵K

其中k_ij表示第j个特征的第i个分位数，0＜i＜n,0＜i＜m,通常n＝9，即k_·j＝{10％，20％，30％，40％，50％，60％，70％，80％，90％}分位数。

3.如权利要求2所述的基于深度强化学习的不平衡分类决策树生成方法，其特征在于：在所述步骤(2)中，针对任意二分类决策树结构，编码时均忽略叶子节点，只对决策节点进行编码。

4.如权利要求3所述的基于深度强化学习的不平衡分类决策树生成方法，其特征在于：在所述步骤(2)中，对于一个以第m个特征，阈值k作为划分的决策节点Node_km,它的向量表示为[ID_m，k]，向量化的决策树与原始决策树保持相同的结构。

5.如权利要求4所述的基于深度强化学习的不平衡分类决策树生成方法，其特征在于：在所述步骤(3)中，在定义决策树生成的动作空间时，需首先给定满二叉决策树的最大节点数N，并对节点按照层次遍历或先序遍历等方式对节点位置进行编号，节点位置选择的动作空间A_p＝{1，2，...，N}，决策节点操作有添加、删除、修改三种方式，得节点操作选择的动作空间A_o＝{add，delete，update}；再根据步骤(1)对特征的编码ID以及阈值矩阵K，划分特征选择和划分阈值选择的动作空间分别为A_f＝{1，2，...，m}以及A_s＝{1，2，...，n}，最终，决策树生成过程的动作空间A＝{A_p，A_o，A_f，A_s}。

6.如权利要求4所述的基于深度强化学习的不平衡分类决策树生成方法，其特征在于：在所述步骤(4)中，奖励函数的设计依赖于生成过程每一棵中间形态决策树分类结果，假设在时刻t,对应的中间形态决策树T_t，可直接使用T_t对数据集D进行分类，根据分类结果应用F-measure、G-mean等常见的不平衡分类评价指标对T_t的分类性能进行评估，得到评估结果score_t。最后score_t与上一时刻的评估结果相减即可得到当前时刻的奖励r_t；将score₀设为0.5或则0，当score₀＝0时，累计奖励则等同于最终决策树模型的评估得分，而score₀＝0.5相当于给最终决策树模型增加一个基准线，即最终决策树模型相比随机分类性能优异多少，

r_t＝score_t-score_t-1。

7.如权利要求6所述的基于深度强化学习的不平衡分类决策树生成方法，其特征在于：在所述步骤(5)中，决策树的生成过程对应的马尔可夫决策过程可以描述为如下：在某一时刻t，智能体观测到环境中的决策树T_t并根据自身的策略做出动作a_t＝(a_pt，a_ot，a_ft，a_st)，紧接着环境根据动作a_t对决策树T_t做出更新；环境对T_t的第a_pt位置进行a_ot操作，若a_ot为添加操作，则在a_pt位置添加一个以第a_ft个特征和该特征的第a_st个分位数作为划分的节点；若a_ot为修改操作，则把a_pt位置的节点的划分特征和阈值修改成第a_ft个特征和该特征的第a_st个分位数；若a_ot为删除操作，则直接删除a_pt位置的节点；在更新后，决策树T_t变为T_t+1，并使用T_t+1对数据集D进行分类，同时计算奖励r_t；最终环境反馈给智能体决策树T_t+1和奖励r_t，交互结束的条件是交互次数达到最大值或则累计奖励收敛不再增长。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆大学，未经重庆大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110500508.8/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N5-00 利用基于知识的模式的计算机系统
G06N5-02 .知识表达
G06N5-04 .推理方法或设备

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的不平衡分类决策树生成方法在审

专利文献下载