[发明专利]不平衡数据集的分类方法在审

申请号：	201810618637.5	申请日：	2018-06-15
公开（公告）号：	CN108830321A	公开（公告）日：	2018-11-16
发明（设计）人：	李芳芳;段昱;毛星亮	申请（专利权）人：	中南大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	长沙永星专利商标事务所(普通合伙) 43001	代理人：	周咏;米中业
地址：	410083 ***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分类分类效果关联规则频繁项集训练数据分类器数据集过滤关联规则挖掘规则分类规则集合候选关联强度定义数据集中整体分类置信度衡量后件前件排序保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种不平衡数据集的分类方法，包括如下步骤：

S1.获取训练数据，得到训练数据的候选频繁项集；

S2.对步骤S1得到的候选频繁项集进行过滤；

S3.将候选关联规则分类至相应类别的规则集合中；

S4.衡量规则前件和后件的相关性，从而得到各类别相关的分类关联规则；

S5.以规则强度作为衡量指标对步骤S4得到的分类关联规则进行过滤和排序，从而得到分类器；

S6.采用步骤S5得到的分类器对不平衡数据进行分类。

2.根据权利要求1所述的不平衡数据集的分类方法，其特征在于步骤S1所述的得到训练数据的候选频繁项集，具体为对训练数据采用Apriori算法，同时设置最小支持度阈值，从而得到满足最小支持度阈值的候选频繁项集。

3.根据权利要求1所述的不平衡数据集的分类方法，其特征在于步骤S2所述的对候选频繁项集进行过滤，具体为设置最小增比率阈值，然后采用如下规则进行过滤：

若频繁项集的增比率低于最小增比率阈值，则将该频繁项集过滤；

若频繁项集的增比率大于或等于最小增比率阈值，则将该频繁项集保留；

若频繁项集的增比率无穷大，则该频繁项集的增比率定义为该类别相关的所有频繁项集的增比率的均值。

4.根据权利要求3所述的不平衡数据集的分类方法，其特征在于所述的增比率，具体为采用如下算式计算增比率：

式中ER(x→C)为规则x→C的增比率，CSup(x→C)为类支持度且CSup(x→C)＝N(x∪C)/N(C)，N(x∪C)表示x和C同时出现在事务集D中的次数，N(C)表示类C在事务集中出现的次数，x表示规则前件，表示类C的补类。

5.根据权利要求1～4之一所述的不平衡数据集的分类方法，其特征在于步骤S3所述的将候选关联规则分类至相应类别的规则集合，具体为设置增比置信度阈值，然后采用如下规则进行分类：

若候选关联规则的增比置信度大于或等于增比置信度阈值，则将该关联规则加入到对应类别的规则集合中；

若候选关联规则的增比置信度小于增比置信度阈值，则将该关联规则删除。

6.根据权利要求5所述的不平衡数据集的分类方法，其特征在于所述的候选关联规则的增比置信度，具体为采用如下算式计算增比置信度：

ERC(x→C)＝ER(x→C)*Confidence(x→C)

式中ERC(x→C)为规则x→C的增比置信度，ER(x→C)为规则x→C的增比率，Confidence(x→C)为规则x→C的置信度，x为规则前件，C为规则后件。

7.根据权利要求1～4之一所述的不平衡数据集的分类方法，其特征在于步骤S4所述的衡量规则前件和后件的相关性并得到各类别相关的分类关联规则，具体为采用如下步骤进行衡量并得到分类关联规则：

A.采用如下公式计算规则A→B的兴趣度：

式中lift(A→B)为规则A→B的兴趣度，P(A∪B)为A∪B出现的概率，P(A)为A出现的概率，P(B)为B出现的概率；

B.采用如下规则进行判断：

若候选关联规则的兴趣度大于或等于设定的最小兴趣度阈值，则将该候选关联规则加入到对应类别的分类关联规则；

若候选关联规则的兴趣度小于设定的最小兴趣度阈值，则进行后续步骤；

C.判断候选关联规则的兴趣度与2-最小兴趣度阈值的关系：

若候选关联规则的兴趣度小于2-最小兴趣度阈值的关系，则得到候选关联规则的负关联规则，计算对应的负关联规则的支持度和置信度；

否则将该规则删除；

D.判断步骤C得到的负关联规则的支持度和置信度与最小阈值之间的关系：

若负关联规则的支持度大于或等于支持度最小阈值且负关联规则的置信度大于或等于置信度最小阈值，则将该候选关联规则加入到对应类别的分类关联规则；

否则将该规则删除。

8.根据权利要求1～4之一所述的不平衡数据集的分类方法，其特征在于步骤S5所述的以规则强度作为衡量指标对得到的分类关联规则进行过滤和排序从而得到分类器，具体为采用如下步骤进行过滤、排序并得到分类器：

a.采用如下公式计算分类关联规则的规则强度：

式中RS(A→B)为规则A→B的规则强度，supp为规则A→B的支持度，conf为规则A→B的置信度，er为规则A→B的增比率，lift为规则A→B的的兴趣度；

b.对于任意规则R_p和R_n，若R_p是R_n的泛化规则且RS(R_p)＞RS(R_n)，则认定规则R_n是冗余并将规则R_n删除；

c.对最终的规则按类别进行排序，从而形成最终的分类器。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中南大学，未经中南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810618637.5/1.html，转载请声明来源钻瓜专利网。

上一篇：基于鉴别和鲁棒多特征提取的高光谱图像分类方法
下一篇：一种图像处理方法及装置、设备、存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]不平衡数据集的分类方法在审

专利文献下载