[发明专利]针对非均衡数据的特征选择和聚类抽样集成二分类方法在审
申请号: | 201810578185.2 | 申请日: | 2018-06-07 |
公开(公告)号: | CN108764366A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 杜庆波;阴法明 | 申请(专利权)人: | 南京信息职业技术学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 于忠洲 |
地址: | 210023 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征选择 非均衡 训练集 聚类 二分类 基分类器 抽样 均衡 分类准确性 训练数据集 测试样本 数据集中 数据删除 特征权重 训练过程 噪声数据 不可用 数据集 投票法 新数据 有效地 构建 集合 采集 改进 | ||
1.针对非均衡数据的特征选择和聚类抽样集成二分类方法,其特征在于,包括如下步骤:
步骤1,将所采集到的数据集中的不完整的数据、噪声数据以及不可用的数据删除,得到训练集D;
步骤2,基于改进的RELIEF-F方法实现特征选择,得到特征权重集合W={w(1),...,w(j),...,w(J)};
步骤3,对训练集D中的数据进行聚类,从而将训练集D分成K个簇;
步骤4,构建均衡的训练数据集,得到K个均衡的子训练集D1,...,DK;
步骤5,对D1,...,DK分别训练K个基分类器,完成训练过程;
步骤6,在新数据到来后,分别通过K个训练好的基分类器得到识别结果,再通过投票法,用少数服从多数的原则,来确定测试样本的类别。
2.根据权利要求1所述的针对非均衡数据的特征选择和聚类抽样集成二分类方法,其特征在于,步骤2中,得到特征权重集合W={w(1),...,w(j),...,w(J)}的具体步骤为:
步骤2.1,初始化特征权重,随机选择训练集D中的一个样本,分别选取该样本的V个最近邻同类样本和异类样本,按照下式计算特征权重:
式中,w(j)表示第j个特征的权重,xi(j)表示样本第j维特征的数值,d(xi(j),NMi(j))表示两个样本关于j维特征的距离,M表示样本随机抽取的次数,k是预先给定的近邻数,class(xi(j))表示样本xi的类别,c表示类别,p(c)表示类别c的先验概率;
步骤2.2,重复步骤2.1,遍历子训练集D中的所有样本,更新特征权重,从而得到特征权重集合W={w(1),...,w(j),...,w(J)}。
3.根据权利要求1所述的针对非均衡数据的特征选择和聚类抽样集成二分类方法,其特征在于,步骤3中,将训练集D分成K个簇的具体步骤为:
步骤3.1,将训练集D作为一个簇,使用二分K均值方法将该簇一分为二,然后根据下式计算误差平方和E:
上式中,E是数据库中样本的平方误差的总和,cluk表示簇k,xi是数据样本,xi∈cluk表示xi在簇k中,ek是簇k的中心,dist(.)为基于欧式距离和特征权重的相似度,其定义为:
其中,w(j)为步骤2得到的第j个特征的权重,ek(j)表示簇k中心的第j维特征的数值;
步骤3.2,分别计算两个簇的总误差平方和E,对总误差平方和E较小的那个簇进行划分,以此类推,直到簇的个数达到K,从而将训练集D分成K个簇。
4.根据权利要求1所述的针对非均衡数据的特征选择和聚类抽样集成二分类方法,其特征在于,步骤4中,得到K个均衡的子训练集D1,...,DK的具体步骤为:
步骤4.1,从训练数据集D中选取全部的少数类样本;
步骤4.2,依次计算各个簇中多数类样本与少数类样本的比值,用Pk表示第k个簇中多数类与少数类样本数量的比值,对于每个簇,按照下式计算各个簇中抽取的多数类样本的数量,
式中,Sk表示第k个簇中应该抽取的多数类样本的数量,S表示数据集D中的全部多数类样本数量;
步骤4.3,从当前簇k中所抽出相应数量的多数类样本与全部的少数类样本构成均衡的训练数据集Dk;
步骤4.4,重复步骤4.3对簇进行遍历,从而构成K个均衡的子训练集D1,...,DK。
5.根据权利要求1所述的针对非均衡数据的特征选择和聚类抽样集成二分类方法,其特征在于,步骤5中,基分类器为朴素贝叶斯、支持向量机或随机森林。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息职业技术学院,未经南京信息职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810578185.2/1.html,转载请声明来源钻瓜专利网。