[发明专利]一种基于生成对抗网络的不平衡数据集的预测方法在审

申请号：	202110526629.X	申请日：	2021-05-14
公开（公告）号：	CN113298230A	公开（公告）日：	2021-08-24
发明（设计）人：	王竹荣;牛亚邦;黑新宏	申请（专利权）人：	西安理工大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06Q10/04
代理公司：	西安弘理专利事务所 61214	代理人：	戴媛
地址：	710048 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于生成对抗网络不平衡数据预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于生成对抗网络的不平衡数据集的预测方法，过程为：接收预测请求；采集数据，形成数据集，明确数据集中的特征与标签及少数类样本和多数类样本的数量；将数据集中的非数值特征列以及标签列转变为分类数值；将处理的数据集进行标准化并将标准化后数据集中的多数类样本和少数类样本进行分离；用深度卷积对抗网络合成少数类样本a，形成平衡数据集；将平衡数据集划分为训练集和测试集；构建卷积神经网络，用划分好的训练集训练卷积神经网络，得到训练好的卷积神经网络；步骤8，将测试集输入训练好的卷积神经网络得到预测结果。本发明预测方法，解决了现有方法存在处理大数据时生成少数类样本非常困难甚至不能生成的问题。

技术领域

本发明属于类别不平衡数据集的预测方法技术领域，涉及一种基于生成对抗网络的不平衡数据集的预测方法。

背景技术

随着信息技术的快速发展，各领域的数据正以前所未有的速度产生并被广泛收集和存储，如何实现数据的智能化处理从而利用数据中蕴含的有价值信息已成为理论和应用的研究热点。机器学习是一种主流的智能数据处理技术,分类问题是机器学习领域的重要研究内容之一，现有的一些分类方法都已经相对成熟,用它们来对平衡数据进行分类一般都能取得较好的分类性能，然而现实世界中的数据往往具有不平衡特性，即数据集中某一类的样本数量要小于其他类别样本数量,并且具有少数样本的那类数据相比其他类更加重要,错分代价更高。由于不平衡数据集对机器学习分类器的分类精度影响较大，通常会产生次优的结果，可能会产生偏向多数类且在少数类上导致分类精度低的结果，因而研究用于处理不平衡数据集的预测方法显得相当重要。

传统方法中有过采样方法和欠采样方法以及对两种方法的改进处理不平衡数据集，如SMOTE、单边选择法(one-side select,OSS)、带多数类权重的少数类过采样(MWMOT)等方法。但在处理不平衡数据集的过程中，欠采样可能会删去带重要信息的样本；过采样方法中在生成少数类样本时没有考虑样本分布问题，会出现样本重叠现象；在处理比较大的数据集时，由于需要计算样本的K近邻，计算量呈指数级增长，生成少数类样本非常困难甚至不能生成。

发明内容

本发明的目的是提供一种基于生成对抗网络的不平衡数据集的预测方法，解决了现有方法存在处理大数据时生成少数类样本非常困难甚至不能生成的问题。

本发明所采用的技术方案是，一种基于生成对抗网络的不平衡数据集的预测方法，具体按照以下步骤实施：

步骤1，接收预测请求；

步骤2，采集数据，形成数据集，明确数据集中的特征与标签及少数类样本S_min和多数类样本S_maj的数量；

步骤3，将数据集中的非数值特征列以及标签列转变为分类数值；

步骤4，将步骤3处理的数据集进行标准化并将标准化后数据集中的多数类样本和少数类样本进行分离；

步骤5，用深度卷积对抗网络合成少数类样本a，形成平衡数据集；

步骤6，将平衡数据集划分为训练集和测试集；

步骤7，构建卷积神经网络，用划分好的训练集训练卷积神经网络，得到训练好的卷积神经网络；

步骤8，将测试集输入训练好的卷积神经网络得到预测结果。

本发明的特征还在于，