[发明专利]一种边界合成、混合采样、异常检测算法及数据分类方法在审
申请号: | 202010012834.X | 申请日: | 2020-01-07 |
公开(公告)号: | CN111259924A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 张丽翠;王茹雪;王鹏程;王剑镁;张春霞;刘淑岐 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京君泊知识产权代理有限公司 11496 | 代理人: | 李丹 |
地址: | 130000 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 边界 合成 混合 采样 异常 检测 算法 数据 分类 方法 | ||
1.一种边界合成算法,其特征在于,包括以下步骤:
设原始训练数据集为D,正类样本集为P,正类样本数目为pnum,负类样本集为N;
步骤一,通过BSMOTE算法将正类样本集P分成噪声样本集、边界样本集和安全样本集;
步骤二,在给定过采样率ratio的情况下,训练数据集需合成新样本的数量G得以确定,为每个正类边界样本赋予采样权值ωj,由ωj与G得到每一个正类边界样本应合成新样本的数目gj;
步骤三,将步骤二所得的gj个新样本与噪声样本集、安全样本集和负类样本集共同组成平衡的训练数据集。
2.根据权利要求1所述的一种边界合成算法,其特征在于,所述采样权值ωj为:
式中,dsumpj为正类边界样本到它m最近邻中各个正类样本距离之和,m为正类样本在原始训练数据集D中的最近邻数量,m'为正类样本最近邻中负类样本的数量。
3.一种混合采样算法,其特征在于,包括以下步骤:
设原始训练数据集为D,正类样本集为P,正类样本数目为pnum,负类样本集为N;
步骤一,使用欠采样方法和如上述所述的自适应边界合成算法分别对负类样本集和正类样本集进行重新采样;
步骤二,得到若干个平衡数据子集;
步骤三,以AdaBoost算法为基分类器Gt(x),对若干个平衡数据子集进行处理,并为基分类器引入关于F1值的分类误差率εt',并以分类误差率εt'计算基分类器Gt(x)的权值αt;
步骤四,将若干个平衡数据子集的处理结果汇总与原始训练数据集合并后输出。
4.根据权利要求3所述的一种混合采样算法,其特征在于,所述分类误差率εt'为:
εt'=εt*(1-F1t),式中,F1t为第t次迭代时基分类器Gt(x)分类后的F1值。
5.根据权利要求4所述的一种混合采样算法,其特征在于,所述基分类器Gt(x)的权值αt为:
6.根据权利要求5所述的一种混合采样算法,其特征在于,在t+1次迭代时,权值ωt+1,i与t次迭代时的权值ωti的关系为:
其中Zt是规范因子,使得p为调节参数,取值为[1,10]之间的整数。
7.一种异常检测算法,其特征在于,包括以下步骤:
步骤一,设置好参数,对数据进行预处理;
步骤二,将步骤一所得的数据利用iForest算法进行处理,滤除其中平均分割路径长度小于设定阈值的数据,保留平均分割路径长度不小于设定阈值的数据作为正常数据子集;
步骤三,利用LOF算法对步骤二中滤除的、平均分割路径长度小于设定阈值的数据进行处理,剔除其中不符合要求的数据作为异常数据子集,其余数据作为正常数据子集。
8.一种数据分类方法,其特征在于,包括以下步骤:
通过BSMOTE算法将正类样本集P分成噪声样本集、边界样本集和安全样本集;
在给定过采样率ratio的情况下,训练数据集需合成新样本的数量G得以确定,为每个正类边界样本赋予采样权值ωj,由ωj与G得到每一个正类边界样本应合成新样本的数目gj;
将所得的gj个新样本与噪声样本集、安全样本集和负类样本集共同组成平衡的训练数据集;
分别对负类样本集和正类样本集进行重新采样,得到若干个平衡数据子集;
以AdaBoost算法为基分类器Gt(x),对若干个平衡数据子集进行处理,并为基分类器引入关于F1值的分类误差率εt',并以分类误差率εt'计算基分类器Gt(x)的权值αt;
将若干个平衡数据子集的处理结果汇总与原始训练数据集合并后输出;
设置好参数,对所得数据进行预处理;
将所得的数据利用iForest算法进行处理,滤除其中平均分割路径长度小于设定阈值的数据,保留平均分割路径长度不小于设定阈值的数据作为正常数据子集;
利用LOF算法对滤除的、平均分割路径长度小于设定阈值的数据进行处理,剔除其中不符合要求的数据作为异常数据子集,其余数据作为正常数据子集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010012834.X/1.html,转载请声明来源钻瓜专利网。