[发明专利]基于拒识子空间的分层支持向量机分类方法有效
申请号: | 201310390468.1 | 申请日: | 2013-08-30 |
公开(公告)号: | CN103473556A | 公开(公告)日: | 2013-12-25 |
发明(设计)人: | 徐贵标;胡包钢 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 梁爱荣 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 拒识子 空间 分层 支持 向量 分类 方法 | ||
技术领域
本发明属于模式识别和机器学习技术领域,涉及一种分层支持向量机分类方法。
背景技术
医学诊断、入侵检测等非平衡大数据分类领域常见的两类问题是计算复杂度过大和类别样本数量不平衡。巨大的数据量导致训练分类器的计算复杂度大大的增大。除此之外,类别样本数量不平衡问题导致分类器容易将正类样本判别为负类样本(在本发明专利中,正类样本表示小类样本,负类样本表示大类样本)。一般情况下,将正类样本判为负类样本的损失代价要明显高于将负类样本判为正类样本的损失代价,例如将有疾病患者诊断为无疾病的损失代价和将非法入侵判为合法交易的损失代价都要明显高于相反的情形。针对非平衡大数据分类存在的这两类不同的问题,分别有不同的解决方法。
针对计算复杂度过大的问题,目前的解决方法可以分为以下三类:
1)提高计算机设备的计算能力;
2)利用随机采样的方法降低数据的规模;
3)提高训练分类器的算法效率。
解决计算复杂度过大的问题的最直接的方法是提高计算机设备的计算能力,但是该解决方法不是模式识别和机器学习领域研究的问题,而且该解决方法受到计算机硬件技术水平发展的限制和研究开发成本的约束。利用随机采样的方法可以降低原始数据集的规模从而降低计算复杂度,但是该方法破坏了原始数据集的内部结构,丢失了原始数据集的一些有效信息,从而使得分类器不能够充分的利用原始数据集所包含的信息。提高训练分类器的算法效率是降低大数据分类问题的计算复杂度的有效途径,但是目前算法效率的发展速度远低于数据规模膨胀的速度。
针对类别样本数量不平衡的问题,目前的解决方法可以分为以下三类:
1)负类样本欠采样;
2)正类样本过采样;
3)代价敏感学习。
负类样本欠采样方法可以使得非平衡数据变得平衡,而且能够降低原始数据集的规模,但是该方法破坏了原始数据集的内部结构,使得分类器不能够充分的利用原始数据集所包含的有效信息。正类样本过采样方法也能够使得非平衡数据变得平衡,但是该方法使得原始数据集的规模再一次扩大,进一步增加了训练分类器的计算复杂度。代价敏感学习是一种有效的解决类别样本数量不平衡问题的方法,有学者研究表明如果已知类别的错分代价,则应该使用代价敏感学习解决类别样本数量不平衡问题,但是在实际的分类问题中,类别的错分代价往往是未知的。
发明内容
为了解决现有技术的问题,本发明专利提供了一种基于拒识子空间的分层支持向量机分类方法。
本发明使用支持向量机层叠训练法训练低计算复杂度的支持向量机;然后,利用基于互信息的代价缺失学习确定支持向量机的拒识子空间,从而获得难以判定类别的拒识训练数据集;在该拒识训练数据集上训练高分类能力的支持向量机,从而对拒识的样本进行进一步的分类。上述步骤可以根据实际需求重复多次,形成分层支持向量机,直到分层支持向量机的分类结果满足要求。分层支持向量机依据其次结构对测试样本进行分类。
为达成所述目的,本发明提供一种基于拒识子空间的应用于非平衡大数据分类的分层支持向量机分类方法,该分类方法包括如下的步骤:
步骤S1:将数据集按照比例分为训练数据集和验证数据集;确定分层支持向量机的总层数h;
步骤S2:根据训练数据集规模为支持向量机层叠训练法选择核函数,并利用支持向量机层叠训练法在训练数据集上训练第k层支持向量机,k表示某一分层的支持向量机;
步骤S3:在验证数据集上,利用基于互信息的代价缺失学习获得第k层支持向量机的正负类样本拒识阈值,进而确定第k层支持向量机的拒识子空间;
步骤S4:利用第k层支持向量机的拒识子空间分别在训练数据集上和验证数据集上筛选出拒识训练数据集和拒识验证数据集,筛选出的拒识训练数据集和拒识验证数据集分别是下一层支持向量机的训练数据集和验证数据集,利用筛选出的训练数据集和验证数据集重复执行步骤S2至步骤S4,直到分层支持向量机的层数达到总层数h,则执行步骤S5;
步骤S5:给定一个测试样本,根据分层支持向量机的层次结构判定其类别。
本发明的有益效果:本发明为解决非平衡大数据分类问题提供了一种新颖的基于分而治之思想的解决方法,具有一定的实际应用价值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310390468.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于SVM的医学影像分类方法
- 下一篇:微通道管的图像识别系统