[发明专利]一种集成特征选择方法及系统在审
申请号: | 201510925335.9 | 申请日: | 2015-12-14 |
公开(公告)号: | CN105512686A | 公开(公告)日: | 2016-04-20 |
发明(设计)人: | 杨峻山;纪震;朱泽轩;周家锐;殷夫 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳市君胜知识产权代理事务所 44268 | 代理人: | 王永文;刘文求 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 集成 特征 选择 方法 系统 | ||
技术领域
本发明涉及特征选择和识别领域,尤其涉及一种集成特征选择方法及 系统。
背景技术
生物组学数据主要是包括基因组学、蛋白质组学、代谢组学、转录组 学、免疫组学、脂类组学等组学数据的统称。通过生物组学数据的分析可 以帮助我们深入了解很多生物过程和疾病机理,识别到相关的生物标记物。 分类学习是生物组学中最常见的分析手段之一。然而,生物组学数据所具 有的高维小样本特点对分类学习性能表现形成一大挑战。通过使用特征选 择技术,可以剔除无关或冗余特征,使特征数量和样本数量处于相对均衡 的比例从而提高分类准确率和分类结果的可解释性。
根据是否使用学习方法评估特征子集,可以将特征选择方法分为主要 的三类:(1)过滤式方法(FilterMethods);(2)封装式方法(WrapperMethod); (3)嵌入式方法(EmbeddedMethod)。过滤式方法根据数据特征的统计分 布特性对特征的优劣性进行评估。由于过滤式方法没有考虑学习方法,它 选取的特征子集往往不能满足学习方法的要求。封装式方法正好相反,封 装式方法使用学习方法对候选特征子集进行测试,可以找到更加匹配学习 方法的特征子集。嵌入式方法把特征选择过程嵌入到分类学习训练过程中, 此类方法只适用于某些特定类型的分类学习过程。
如何在高维空间中寻找与识别问题高度相关的特征子集(最优或次优 特征所组成的集合)是特征选择技术的关键。常用的特征选择搜索方法包 括:穷举搜索、启发式搜索、随机搜索。生物启发式进化算法具有在高维 空间中全局最优值收敛速度快等特点,已被越来越多地应用于特征选择问 题。如基于遗传算法(GeneticAlgorithm,GA)和差分进化(Differential Evolution,DE)的特征选择方法在相关的高维特征选择问题都获得了成功, 粒子群优化(ParticleSwarmOptimization,PSO)因其较高搜索效率,也常 被用作特征子集搜索方法。
但上述方法常包含以下缺点:
当数据的特征数N增大至成千上万,比如高维基因组学数据,此类搜 索容易陷入局部最优,即这些特征搜索方法在一次搜索过程中仅仅只能找 到一个局部最优特征子集,这个特征子集并不能确保是众多局部最优特征 子集中最好的,从而不能保证基于这个局部最优特征子集建立的分类器是 强分类器。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种集成特征选择 方法及系统,旨在解决现有的特征搜索方法不能确保特征子集是最优的、 也不能保证分类器是强分类器等问题。
本发明的技术方案如下:
一种集成特征选择方法,其中,包括步骤:
A、根据种群小生境算法对训练数据进行处理,得到K个最优或次优 特征子集;
B、然后将训练数据依据这些选择的最优或次优特征子集过滤成K份子 训练数据集;
C、在这K份子训练数据集上进行分类学习并建立K个分类器;
D、将测试数据分别在这K个分类器上做分类预测并投票决策最后的 分类结果;
所述步骤A具体包括:
控制小生镜中每个粒子与其所在小生境的最优位置之间的距离小于或 等于小生境半径R,从而使得任意两个小生境最优位置之间的距离大于R, 最终由小生境最优位置所选择的特征子集得到K个最优或次优特征子集。
所述的集成特征选择方法,其中,任意两个小生境最优位置所选择的 特征子集的差异度r大于R。
所述的集成特征选择方法,其中,所述差异度r为:
其中,|X|、|Y|分别代表特征子集X和Y被选中的特征个数,|X^Y|为 特征子集X和Y按位相与后的特征子集中被选中特征的个数。
所述的集成特征选择方法,其中,所述分类器为SVM分类器或kNN 分类器。
所述的集成特征选择方法,其中,所述步骤D之后还包括:
E、根据训练好的K个分类器,将每个分类器投票集成为最后的强分类 器。
一种集成特征选择系统,其中,包括:
小生镜处理模块,用于根据种群小生境算法对训练数据进行处理,得 到K个最优或次优特征子集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510925335.9/2.html,转载请声明来源钻瓜专利网。