[发明专利]基于直觉模糊集成的数据分类方法与系统有效
申请号: | 201110301869.6 | 申请日: | 2011-09-28 |
公开(公告)号: | CN102402690A | 公开(公告)日: | 2012-04-04 |
发明(设计)人: | 钱钢;王海;黄为民;郑雄燕 | 申请(专利权)人: | 南京师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210046 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 直觉 模糊 集成 数据 分类 方法 系统 | ||
技术领域
本发明是针对数据的分类方法的研究,涉及模式识别领域,特别是涉及一种基于直觉模糊集成的非平衡数据分类方法与基于该方法的系统。
背景技术
在医疗诊断过程中,医生通过对一系列检查得到检查者的若干个指标的客观数据,并以此为依据结合医学知识或临床经验做出最主要的诊断决策:患病或正常。此时医生面临的一个问题就是如何科学的将检查者的这些数据分为“患病”或者“正常”中的某一类,其中历史的正确的诊断数据是一项有力的参考依据。这里医生面临的分类问题具有以下特点:(1)历史数据中“患病”或者“正常”的样本数差别较大,即非平衡的,因为大多数人都是“正常”的;(2)“患病”比“正常”更受关注,因为将一个正常人误判为病人固然带来一定的负面效果,然而将一个病人误判为正常人的后果显然严重得多。
分类技术作为数据挖掘的一项关键技术,在金融业、零售业、电信业等领域都有广泛的应用。一些现有的机器学习的分类方法已经相对成熟,用来对平衡的数据进行分类能获得较好的性能。然而,现有的分类方法大多基于类内和类间分布大致平衡这个基本假设,也就是认为各类所含的样本数基本相当,在此前提下通过统计或其他方法学习分类函数。然而在许多现实问题中,这一假设是不成立的;相反,某个类别中的样本数可能会远远小于其他类别,而这个少数类别恰好是应用中最重要的类别。例如医疗诊断等问题中,少数类的识别率更为重要。在这类问题中,传统的分类方法没有办法兼顾或者重视少数类的识别率,因此不适合用在对这种类分布不平衡的数据进行分类。
对非平衡的数据分类的困难首先在于缺少足够的少数类样本数据。在应用中,少数类(POS类)样本与多数类(NEG类)样本的比例可达1∶1000甚至更大。另一方面,经典的分类评价准则不能有效的评价非平衡数据分类的性能。现有的少数适用于非平衡的数据分类的研究主要集中于:(1)通过过采样或者欠采样技术改变数据的分布,使之接近平衡的分布。(2)设计适用于非平衡数据集的分类方法,如代价敏感型分类方法和集成学习方法。现有的研究在以下方面有待改进:
(1)欠采样技术通过减少多数类样本来改善数据的不平衡状况,但不可避免的要放弃一些样本,也就可能抛弃了一些对分类有用的信息。而过采样技术通过复制或人工生成少数类样本来改变数据分布,也很容易造成过适应。同时如何根据少数类样本的初始分布来进行人工数据的生成也有待研究。
(2)集成学习方法能很好的改善单分类器的不稳定性,提高整体的分类性能。但传统的集成学习方法只简单的考虑分类器对样本属于类别的支持程度,忽视了分类器输出同时还包含着样本不属于类别的程度,没有定量地考虑分类器输出的模糊的或概率的不确定性。这就导致了集成分类方法有时并没有很大程度地改善分类性能。
发明内容
为了解决上述问题,提高非平衡数据环境下对POS类样本的辨识率,并为医疗诊断等应用提供更有效的决策支持,本发明公开了一种新的适用于非平衡数据的分类方法及基于该方法的系统,该方法主要利用POS类样本在类中的位置分布来产生人工样本,再通过直觉模糊理论集成多个模糊分类器的分类结果,进而做出最终决策。
为了实现上述发明目的,本发明采用的技术方案如下:
基于直觉模糊集成的数据分类方法,包括以下步骤:
步骤101:清洗原始数据集,并将原始POS类样本按其类内位置分类;
步骤102:生成POS类人工样本,准备训练数据集;
步骤103:为每个基分类器准备类间近似平衡的分类样本,并训练基分类器;
步骤104:用基分类器对待分类样本分类,将分类输出等效用转化为直觉模糊矩阵;
步骤105:结合分类器权重融合待分类样本属于POS类、NEG类的隶属度和非隶属度,并作出分类决策。
本发明还提供了一种基于上述数据分类方法的系统,包括数据交换接口和基于直觉模糊集成的数据分类模块M;系统运行的平台通过所述数据交换接口向所述数据分类模块M提供用于训练的历史样本集和待分类的样本;同时所述数据分类模块M将分类结果返回给系统平台。
其中基于直觉模糊集成的数据分类模块M包括:
a)数据准备模块M1:清洗原始数据集中的NEG类样本的噪声,根据POS类样本的类内位置生成人工数据,并形成训练数据集。包含NEG类数据清洗单元U11、POS类人工数据生成单元U12;训练数据合成模块U13;
b)分类器训练模块M2:利用随机抽样方法为每个基分类器准备训练数据,训练基分类器的模型,同时计算基分类器的权重。包含训练数据准备单元U21、分类器训练单元U22;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京师范大学,未经南京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110301869.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:存储元件以及存储器
- 下一篇:一种锅炉吹灰器用弱爆炸装置