[发明专利]一种基于深度增强学习的不平衡分类方法在审

申请号：	201810652374.X	申请日：	2018-06-22
公开（公告）号：	CN108985342A	公开（公告）日：	2018-12-11
发明（设计）人：	陈琼;戚潇明;林恩禄	申请（专利权）人：	华南理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F17/30
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	冯炳辉
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	构建智能体神经网络模型学习分类多分类问题动作空间分类策略分类建模分类模型分类问题交互规则数据环境外部环境样本分类样本特征二分类回报应用监督
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度增强学习的不平衡分类方法，其特征在于，包括以下步骤：

1)构建智能体的分类任务与交互规则；

2)构建智能体的动作空间；

3)构建外部环境；

4)构建深度神经网络模型；

5)训练基于深度增强学习的不平衡分类模型，即用深度神经网络模型学习Q函数。

2.根据权利要求1所述的一种基于深度增强学习的不平衡分类方法，其特征在于，在步骤1)中，构建的分类任务为：智能体依次对环境中的每一个训练样本分类，当分类正确时，智能体从环境获得正回报值，否则智能体获得负回报值；智能体的目标就是在分类任务中获得最多的累计回报；

在不平衡分类任务中，为引导智能体学会对不平衡数据分类的策略，制定智能体与环境的交互规则：如果智能体对少数类样本分类正确，环境给予高额的正回报值以奖励；一旦分类错误，则终止当前分类任务，同时环境给予高额的负回报值以惩罚；如果智能体对多数类样本分类正确，环境给予低额的正回报值以奖励；如果分类错误，环境给予低额的负回报值以惩罚。

3.根据权利要求1所述的一种基于深度增强学习的不平衡分类方法，其特征在于，在步骤2)中，智能体的动作空间与训练数据的类别对应，对于不平衡N＝2分类问题，定义智能体的动作空间A＝{0,1}，0和1分别代表样本的标签，在t时刻，智能体对每一个样本分类，输出动作a_t，a_t∈A。

4.根据权利要求1所述的一种基于深度增强学习的不平衡分类方法，其特征在于，在步骤3)中，构建外部环境包括如下步骤：

3-1)构建环境的状态空间

使用训练数据集D＝{＜x_i,y_i＞|i＝1,2,3...}构建外部环境，定义状态空间S为整个训练集的样本空间，并且每个时刻的环境状态s_t唯一对应训练集D的一个样本x_i；

3-2)设置外部环境的回报函数

对于不平衡N＝2分类问题，智能体对少数类样本分类正确时能够获得更多的奖励；分类错误时，获得更多的惩罚；定义训练集中的多数类样本集为D_L，少数类样本集为D_S，训练集样本不平衡的比例为回报函数如下式：

其中，a_t为在t时刻，智能体对每一个样本分类的输出动作；

对于不平衡N>2分类问题，定义标签为k的训练样本集为D_k，|D_k|为标签为k的训练样本数量，定义类别k的不平衡比例为回报函数如下式：

在r_t的表达式中，x_t和y_t是t时刻环境向智能体展示的样本及其标签，λ是常数系数，通常取“1”，当然，也能够根据需要调整其取值；

3-3)构建外部环境的状态转移规则

每当新的一轮分类任务开始时，环境将训练集的所有样本打乱，于每个时刻向智能体展示一个待分类的训练样本x_t；当环境接收到智能体的分类动作时，通过回报函数评价智能体的分类动作的价值，给予智能体即时回报r_t并决定是否状态转移；

对于不平衡N＝2分类问题，样本数量少的类为少数类，另一类为多数类；对于不平衡N>2分类问题，定义数量最少的m个类为少数类，其余类为多数类；当智能体对少类样本错误分类或者完成对所有样本的分类时，终止当前分类任务、环境停止状态转移、重置智能体的累计回报并开始新一轮分类任务，否则，环境当前状态转移至下一个状态，即向智能体展示下一个样本x_t+1。

5.根据权利要求1所述的一种基于深度增强学习的不平衡分类方法，其特征在于，在步骤4)中，根据不同的数据环境构建不同的神经网络模型，对于文本数据，使用带有Embedding层的深度神经网络模型；对于图片数据，使用带有卷积层和池化层的深度神经网络模型。

6.根据权利要求1所述的一种基于深度增强学习的不平衡分类方法，其特征在于，在步骤5)中，训练基于深度增强学习的不平衡分类模型，具有如下特征：

①基于价值函数的深度增强学习算法模型；

②在训练模型的过程中，使用验证数据集对模型进行周期性测试，保存最佳分类模型，对于不平衡N＝2分类问题，训练过程中周期性使用验证数据集监控正负类样本的召回率，当正负两类召回率接近相等时，终止训练，保存模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810652374.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种神经网络模型的训练集评估方法及系统
下一篇：基于深度神经网络的汽车损伤检测方法和系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度增强学习的不平衡分类方法在审

专利文献下载