[发明专利]不平衡数据集的分类方法在审
申请号: | 201810618637.5 | 申请日: | 2018-06-15 |
公开(公告)号: | CN108830321A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 李芳芳;段昱;毛星亮 | 申请(专利权)人: | 中南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 长沙永星专利商标事务所(普通合伙) 43001 | 代理人: | 周咏;米中业 |
地址: | 410083 *** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 分类效果 关联规则 频繁项集 训练数据 分类器 数据集 过滤 关联规则挖掘 规则分类 规则集合 候选关联 强度定义 数据集中 整体分类 置信度 衡量 后件 前件 排序 保证 | ||
1.一种不平衡数据集的分类方法,包括如下步骤:
S1.获取训练数据,得到训练数据的候选频繁项集;
S2.对步骤S1得到的候选频繁项集进行过滤;
S3.将候选关联规则分类至相应类别的规则集合中;
S4.衡量规则前件和后件的相关性,从而得到各类别相关的分类关联规则;
S5.以规则强度作为衡量指标对步骤S4得到的分类关联规则进行过滤和排序,从而得到分类器;
S6.采用步骤S5得到的分类器对不平衡数据进行分类。
2.根据权利要求1所述的不平衡数据集的分类方法,其特征在于步骤S1所述的得到训练数据的候选频繁项集,具体为对训练数据采用Apriori算法,同时设置最小支持度阈值,从而得到满足最小支持度阈值的候选频繁项集。
3.根据权利要求1所述的不平衡数据集的分类方法,其特征在于步骤S2所述的对候选频繁项集进行过滤,具体为设置最小增比率阈值,然后采用如下规则进行过滤:
若频繁项集的增比率低于最小增比率阈值,则将该频繁项集过滤;
若频繁项集的增比率大于或等于最小增比率阈值,则将该频繁项集保留;
若频繁项集的增比率无穷大,则该频繁项集的增比率定义为该类别相关的所有频繁项集的增比率的均值。
4.根据权利要求3所述的不平衡数据集的分类方法,其特征在于所述的增比率,具体为采用如下算式计算增比率:
式中ER(x→C)为规则x→C的增比率,CSup(x→C)为类支持度且CSup(x→C)=N(x∪C)/N(C),N(x∪C)表示x和C同时出现在事务集D中的次数,N(C)表示类C在事务集中出现的次数,x表示规则前件,表示类C的补类。
5.根据权利要求1~4之一所述的不平衡数据集的分类方法,其特征在于步骤S3所述的将候选关联规则分类至相应类别的规则集合,具体为设置增比置信度阈值,然后采用如下规则进行分类:
若候选关联规则的增比置信度大于或等于增比置信度阈值,则将该关联规则加入到对应类别的规则集合中;
若候选关联规则的增比置信度小于增比置信度阈值,则将该关联规则删除。
6.根据权利要求5所述的不平衡数据集的分类方法,其特征在于所述的候选关联规则的增比置信度,具体为采用如下算式计算增比置信度:
ERC(x→C)=ER(x→C)*Confidence(x→C)
式中ERC(x→C)为规则x→C的增比置信度,ER(x→C)为规则x→C的增比率,Confidence(x→C)为规则x→C的置信度,x为规则前件,C为规则后件。
7.根据权利要求1~4之一所述的不平衡数据集的分类方法,其特征在于步骤S4所述的衡量规则前件和后件的相关性并得到各类别相关的分类关联规则,具体为采用如下步骤进行衡量并得到分类关联规则:
A.采用如下公式计算规则A→B的兴趣度:
式中lift(A→B)为规则A→B的兴趣度,P(A∪B)为A∪B出现的概率,P(A)为A出现的概率,P(B)为B出现的概率;
B.采用如下规则进行判断:
若候选关联规则的兴趣度大于或等于设定的最小兴趣度阈值,则将该候选关联规则加入到对应类别的分类关联规则;
若候选关联规则的兴趣度小于设定的最小兴趣度阈值,则进行后续步骤;
C.判断候选关联规则的兴趣度与2-最小兴趣度阈值的关系:
若候选关联规则的兴趣度小于2-最小兴趣度阈值的关系,则得到候选关联规则的负关联规则,计算对应的负关联规则的支持度和置信度;
否则将该规则删除;
D.判断步骤C得到的负关联规则的支持度和置信度与最小阈值之间的关系:
若负关联规则的支持度大于或等于支持度最小阈值且负关联规则的置信度大于或等于置信度最小阈值,则将该候选关联规则加入到对应类别的分类关联规则;
否则将该规则删除。
8.根据权利要求1~4之一所述的不平衡数据集的分类方法,其特征在于步骤S5所述的以规则强度作为衡量指标对得到的分类关联规则进行过滤和排序从而得到分类器,具体为采用如下步骤进行过滤、排序并得到分类器:
a.采用如下公式计算分类关联规则的规则强度:
式中RS(A→B)为规则A→B的规则强度,supp为规则A→B的支持度,conf为规则A→B的置信度,er为规则A→B的增比率,lift为规则A→B的的兴趣度;
b.对于任意规则Rp和Rn,若Rp是Rn的泛化规则且RS(Rp)>RS(Rn),则认定规则Rn是冗余并将规则Rn删除;
c.对最终的规则按类别进行排序,从而形成最终的分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810618637.5/1.html,转载请声明来源钻瓜专利网。