[发明专利]基于直觉模糊集成的数据分类方法与系统有效
申请号: | 201110301869.6 | 申请日: | 2011-09-28 |
公开(公告)号: | CN102402690A | 公开(公告)日: | 2012-04-04 |
发明(设计)人: | 钱钢;王海;黄为民;郑雄燕 | 申请(专利权)人: | 南京师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210046 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 直觉 模糊 集成 数据 分类 方法 系统 | ||
1.基于直觉模糊集成的数据分类方法,其特征在于,所述方法包括:
步骤101:清洗原始数据集,并将原始POS类样本按其类内位置分类;
步骤102:生成POS类人工样本,准备训练数据集;
步骤103:为每个基分类器准备类间近似平衡的分类样本,并训练基分类器;
步骤104:用基分类器对待分类样本分类,将分类输出等效用转化为直觉模糊矩阵;
步骤105:结合分类器权重融合待分类样本属于POS类、NEG类的隶属度和非隶属度,并作出分类决策。
2.如权利要求1所述的基于直觉模糊集成的数据分类方法,其特征在于,所述步骤101包括如下步骤:
步骤201:初始化NEG类训练样本集合N和POS类的边界样本集合BORDER、邻近边界样本集合NEAR_BD、非边界样本集合NON_BD为空集;
步骤202:对于每个NEG类样本(xi;-1),选择其m个最近邻,计算m个最近邻中NEG类样本的比例r;若r≤rnoise,则认为该样本为噪音,从原始数据集中删除,否则N=NU{(xi;1)},其中rnoise为噪音样本的本类近邻比例阀值;
步骤203:对于每个POS类样本(xi;-1),选择其m个最近邻,计算m个最近邻中POS类样本的比例r;
若r≤rborder,则该样本为边界样本,BORDER=BORDERU{(xi;1)};
若rborder<r≤rnearbd,则该样本为邻近边界样本,NEAR_BD=NEAR_BDU{(xi;1)};
若r>rnearbd,则该样本为非边界样本,NON_BD=NON_BDU{(xi;1)};其中rborder、rnearbd分别为边界样本的本类近邻比例阀值、邻近边界样本的本类近邻比例阀值。
3.如权利要求1所述的基于直觉模糊集成的数据分类方法,其特征在于,所述步骤102包括如下步骤:
步骤301:初始化POS类人工数据集合NEW为空集;
步骤302:对于每个边界样本集合BORDER中的样本(xi;-1),执行:
(1)从POS类样本中选择(xi;-1)的k个最近邻;
(2)随机产生一个0到k之间的整数s1,从k个最近邻中随机的选择s1个;
(3)对于每个选中的最近邻(xj;1),产生一个新的POS类人工数据 其中:
这里rdm为(0,1)上的随机数;
步骤303:对于每个邻近边界样本集合NEAR_BD中的样本(xi;-1),执行:
(1)从POS类样本中选择(xi;-1)的k/p个最近邻,其中p为边界样本与邻近边界样本在过采样过程中的相对重要性,取大于1的数;
(2)随机产生一个0到k/p之间的整数s2,从k/p个最近邻中随机的选择s2个;
(3)对于每个选中的最近邻(xj;1),产生一个新的POS类人工数据 其中:
,这里rdm为(0,1)上的随机数;
步骤304:训练分类器用的POS类样本P为:
P=BORDERUNEAR_BDUNON_BDUNEW,
训练数据集为PYN。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京师范大学,未经南京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110301869.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:存储元件以及存储器
- 下一篇:一种锅炉吹灰器用弱爆炸装置