[发明专利]一种基于深度增强学习的不平衡分类方法在审

申请号：	201810652374.X	申请日：	2018-06-22
公开（公告）号：	CN108985342A	公开（公告）日：	2018-12-11
发明（设计）人：	陈琼;戚潇明;林恩禄	申请（专利权）人：	华南理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F17/30
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	冯炳辉
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	构建智能体神经网络模型学习分类多分类问题动作空间分类策略分类建模分类模型分类问题交互规则数据环境外部环境样本分类样本特征二分类回报应用监督
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度增强学习的不平衡分类方法，包括步骤：1)构建智能体的分类任务与交互规则；2)构建智能体的动作空间；3)构建外部环境；4)构建深度神经网络模型；5)训练基于深度增强学习的不平衡分类模型，即用深度神经网络模型学习Q函数。本发明将深度增强学习用于有监督学习中的不平衡分类问题，通过回报函数对少数类样本分类动作给予更高的奖惩值来提高少数类样本特征在分类建模中的作用，使智能体在不同类型的数据环境和不同不平衡程度的数据中学会正确的分类策略，在不平衡二分类和多分类问题中均适用，因而本发明具有实际应用价值，值得推广。

技术领域

本发明涉及机器学习中的深度学习、增强学习、不平衡分类的技术领域，尤其是指一种基于深度增强学习的不平衡分类方法。

背景技术

对于不平衡分类问题，通常的解决思路是从数据层和算法层的角度去改善。但是数据层的改善方法会改变训练数据的原始分布特征，重采样后的数据往往不能反映真实数据的分布特征。比如上采样方法对少数类样本的简单复制或者插值生成新样本会导致训练模型对少数类样本过拟合，而下采样方法则会因为对多数类样本的删除而导致数据信息丢失。算法层的方法也存在问题，基于集成学习的方法通常需要训练多个基分类器，训练代价相对较高，而基于代价敏感的学习方式，很难为不同的类别定义准确的惩罚代价。

现实生活中数据分布不平衡的问题客观存在，当少数类样本的总体特征空间无法估计时，数据层和算法层的改进方法都有局限性，很难找到一个通用的方法解决不平衡分类问题。

增强学习不仅具有对已知环境的学习能力，重要的是对未知环境的具有探索能力。将增强学习用于解决不平衡分类问题，其探索学习的能力可以使智能体利用已学会的分类策略评估未知的样本特征，使智能体在不同类型的数据环境和不同不平衡程度的数据环境中学会正确的分类策略。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种行之有效、科学合理的基于深度增强学习的不平衡分类方法，将深度增强学习用以解决有监督学习中的不平衡分类问题，通过回报函数对少数类样本分类动作给予更高的奖惩值来提高少数类样本特征在分类建模中的作用，使智能体在不同类型的数据环境和不同不平衡程度的数据中学会正确的分类策略。本发明提出的方法模型在不平衡二分类和多分类问题中均适用，是一个具有较强鲁棒性的通用模型。

为实现上述目的，本发明所提供的技术方案为：一种基于深度增强学习的不平衡分类方法，包括以下步骤：

1)构建智能体的分类任务与交互规则；

2)构建智能体的动作空间；

3)构建外部环境；

4)构建深度神经网络模型；

5)训练基于深度增强学习的不平衡分类模型，即用深度神经网络模型学习Q函数。

在步骤1)中，构建的分类任务为：智能体依次对环境中的每一个训练样本分类，当分类正确时，智能体从环境获得正回报值，否则智能体获得负回报值；智能体的目标就是在分类任务中获得最多的累计回报；

在不平衡分类任务中，为引导智能体学会对不平衡数据分类的策略，制定智能体与环境的交互规则：如果智能体对少数类样本分类正确，环境给予高额的正回报值以奖励；一旦分类错误，则终止当前分类任务，同时环境给予高额的负回报值以惩罚；如果智能体对多数类样本分类正确，环境给予低额的正回报值以奖励；如果分类错误，环境给予低额的负回报值以惩罚。

在步骤2)中，智能体的动作空间与训练数据的类别对应，对于不平衡N＝2分类问题，定义智能体的动作空间A＝{0,1}，0和1分别代表样本的标签，在t时刻，智能体对每一个样本分类，输出动作a_t，a_t∈A。

在步骤3)中，构建外部环境包括如下步骤：

3-1)构建环境的状态空间

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810652374.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种神经网络模型的训练集评估方法及系统
下一篇：基于深度神经网络的汽车损伤检测方法和系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度增强学习的不平衡分类方法在审

专利文献下载