[发明专利]基于最大相关最小冗余和改进花授粉算法的特征选择方法有效
申请号: | 202110415025.8 | 申请日: | 2021-04-17 |
公开(公告)号: | CN113113137B | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 罗慧敏;李梦园;阎朝坤;王建林;代雪兵 | 申请(专利权)人: | 河南大学 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G16H50/70;G06N3/00 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 张立强 |
地址: | 475001 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 最大 相关 最小 冗余 改进 授粉 算法 特征 选择 方法 | ||
本发明提供一种基于最大相关最小冗余和改进花授粉算法的特征选择方法。该方法包括:步骤1、采用基于最大相关最小冗余算法的特征排序策略和反向学习对种群中的N个个体进行随机初始化;步骤2、采用设定的适应度函数计算所述种群中每个个体的适应度值,将种群中适应度值最大的个体作为全局最优解;步骤3、采用改进的花授粉算法更新种群,并更新种群中每个个体的适应度值,更新种群中的全局最优解;步骤4、以步骤3作为一次迭代,重复进行步骤3,直至当前迭代次数达到设定的迭代次数。本发明可以获得较高的准确性和较低的时间消耗。
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种基于最大相关最小冗余和改进花授粉算法的特征选择方法。
背景技术
面对大量的生物医学数据,领域专家不可能直接、快速地处理这些数据进行疾病诊断或治疗。因此,如何从这些数据中高效地提取有用的信息已成为一个亟待解决的问题。虽然,数据挖掘和机器学习方面的一些进展为此提供了一些解决方案,然而,这些生物医学数据中包含的不相关或噪声特征会降低机器学习任务的性能。究其根本原因,在于生物医学数据的高维性和小样本性,从而导致所谓的“维数诅咒”。目前,最常见的解决方案是通过特征选择技术来减少特征的数量。
特征选择作为一种有效的特征降维方法,近年来在生物医学领域受到越来越多的关注。一般来说,现有的特征选择方法可分为以下几种:filter、wrapper和embedded[K.Kira and L.A.Rendell.The feature selection problem:Traditional methods anda new algorithm[C]//Proc.Tenth National Conf.Artificial Intelligence,SanJose,CA,USA,1992,pp.129–134.;Kang C,Huo Y,Xin L,et al.Feature selection andtumor classification for microarray data using relaxed Lasso and generalizedmulti-class support vector machine[J].Journal of theoretical biology,2019,463:77-91.]。该方法根据数学评价函数选择特征子集,在计算时间上具有较高的效率。信息增益、TRank算法、ReliefF、Fisher、mRMR和基于相关性的特征选择(CFS)算法过滤方法的典型代表,已成功应用于许多实际数据集。基于wrapper的方法可以获得分类精度更高、计算量更大的特征子集。基于filter的方法在计算时间方面是有效的,但可能不能获得具有高分类精度的特征子集。然而,大多数filter方法的缺点是忽略了特征之间的依赖关系,无法获得具有较高分类精度的特征子集。与其他filter方法不同的是,MRMR算法在单独评价特征的同时还考虑了相互作用特征的影响,是一种高效的特征评价算法。基于wrapper的方法则相反,通常通过在候选特征空间中进行搜索,将准确率作为评价特征子集合适性的质量标准。虽然实现了更好的分类精度,但在特征选择过程中,由于重复调用分类器,往往需要更多的计算代价。embedded方法的特征选择过程是在训练过程中进行的,通常针对某些给定的学习机器。此外,学习步骤也离不开特征选择部分。最小绝对收缩选择算子(leastabsoluteshrinkageselectionoperator,LASSO)是嵌入式方法的代表,是一种经典的正则化方法,它利用惩罚项将某些变量的系数缩小到零,从而实现特征选择。到目前为止,LASSO或其变体已被应用于各种生物医学数据的分类,如大颗粒淋巴细胞(LGL)白血病、阿尔茨海默病和基因组数据。
综上所述,从原始的输入数据中选择出对分类最有价值的由相关特征组成的最优特征子集,并且尽可能的提高分类精确度,就是特征选择算法需要实现的目标,然而,目前许多智能算法都无法同时涵盖这两个目标。
发明内容
针对传统特征选择方法中存在的准确性较低或者时间消耗较长的问题,本发明提供一种基于最大相关最小冗余和改进花授粉算法的特征选择方法,可以获得较高的准确性和较低的时间消耗。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南大学,未经河南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110415025.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种发动机配件活塞环成型热处理方法
- 下一篇:一种室外立体垂直绿化种植墙