[发明专利]一种基于孤立森林学习的不平衡数据集的预测方法在审

申请号：	202010837636.7	申请日：	2020-08-19
公开（公告）号：	CN112070125A	公开（公告）日：	2020-12-11
发明（设计）人：	王竹荣;牛亚邦;黑新宏	申请（专利权）人：	西安理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/12;G06Q30/02;G06Q40/02
代理公司：	西安弘理专利事务所 61214	代理人：	罗笛
地址：	710048 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于孤立森林学习不平衡数据预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开的一种基于孤立森林学习的不平衡数据集的预测方法，包括以下步骤：接收预测请求；采集数据，明确数据集中的特征与标签及少数类样本和多数类样本的数量；将数据集中的非数值特征列以及标签列转变为分类数值；用多数类加权的少数类过采样技术合成少数类样本，形成平衡数据集；用孤立森林算法对平衡数据集进行异常点的识别和去除；之后进行数据标准化，划分训练集和测试集；构建并用训练集训练支持向量机分类器模型；通过遗传算法调整支持向量机分类器模型的超参数，训练完成后得到预测模型；将测试集输入预测模型得到预测结果。本发明一种基于孤立森林学习的不平衡数据集的预测方法，具有预测结果稳定、预测精度高的特点。

技术领域

本发明属于类别不平衡数据集的预测方法技术领域，具体涉及一种基于孤立森林学习的不平衡数据集的预测方法。

背景技术

随着传感器技术、计算机技术、通信技术、数据存储等技术的高速发展，互联网、过程工业等领域产生并存储了大量数据。机器学习是一种主流的智能数据处理技术，而分类算法作为机器学习的关键技术之一，它能够利用大数据构建一个具有较强泛化能力的分类模型，提取数据中的有用信息而受到广泛关注。传统的分类方法通常假设数据集中各类别所包含的样本数相同且误分代价相等。然而现实世界中的数据往往具有不平衡特性，即数据集中某一类的样本数量要小于其他类别样本数量，并且具有少数样本的那类数据相比其他类更加重要，错分代价更高。目前，不平衡数据分类问题广泛存在于各个领域，在金融领域：如贷款违约预测；信息安全领域:如软件缺陷检测；工业系统领域：如故障诊断；生物医学领域：如ICU死亡预测等。由于不平衡数据集对机器学习分类器的分类精度影响较大，尽管分类算法对平衡数据集可以有效地处理，但对于不平衡数据集，通常会产生次优的结果，可能会产生偏向多数类且在少数类上导致分类精度低的结果，因此对不平衡数据集的研究具有重要意义。

传统方法中有过采样方法和欠采样方法以及对两种方法的改进处理不平衡数据集，如SMOTE、单边选择法(one-side select,OSS)等方法。但在处理不平衡数据集的过程中，欠采样可能会删去带重要信息的样本，过采样方法中在生成少数类样本时没有考虑样本分布问题，会出现样本重叠现象。另外，用过采样方法生成少数类样本中可能会有一些异常点，这些异常点会影响模型的预测精度。

发明内容

本发明的目的在于提供一种基于孤立森林学习的不平衡数据集的预测方法，解决了现有方法在生成少数类样本时出现样本重叠现象以及出现异常点使预测结果不稳定、准确度低的问题。

本发明所采用的技术方案是：一种基于孤立森林学习的不平衡数据集的预测方法，包括以下步骤：

步骤1、接收预测请求；

步骤2、采集数据(不平衡数据集)，明确数据集中的特征与标签，及少数类样本和多数类样本的数量；

步骤3、将数据集中的非数值特征列以及标签列转变为分类数值；

步骤4、用多数类加权的少数类过采样技术合成少数类样本，形成平衡数据集；

步骤5、用孤立森林算法对平衡数据集进行异常点的识别和去除；

步骤6、将去除异常点后的平衡数据集进行数据标准化，划分训练数据集和测试数据集；

步骤7、构建并用训练数据集训练支持向量机(Support Vector Machine, SVM)分类器模型；

步骤8、通过遗传算法调整支持向量机分类器模型的超参数，训练完成后，得到训练好的预测模型；

步骤9，将测试数据集输入训练完成的预测模型得到预测结果。