[发明专利]一种基于投票策略的高维特征选择方法在审
申请号: | 202010173410.1 | 申请日: | 2020-03-12 |
公开(公告)号: | CN111310856A | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 杨杏丽;李济洪;王子慧;王瑞波;王钰 | 申请(专利权)人: | 山西大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 太原申立德知识产权代理事务所(特殊普通合伙) 14115 | 代理人: | 张向莹 |
地址: | 030006*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 投票 策略 特征 选择 方法 | ||
本发明公开了一种基于投票策略的高维特征选择方法,涉及集成特征选择领域。该方法包括:(1)给定特征维度为d的有限数据集Dn,利用正则化组块m×2交叉验证的方法对数据集进行切分,得到2m个样本大小为n/2的数据子集,并给定特征选择器A;(2)在2m个数据子集上使用给定的特征选择器A选择特征,得到相应的2m个入选特征子集,并形成特征候选集合;(3)再对特征候选集合中的每个特征施行绝大多数投票法得到最终的特征入选集合,该特征集合为d′维(d′<d),包含了数据的大多数信息。该方法能够较大程度地减少集成时使用到的候选特征集合的个数,而且使得真特征的入选概率得以提高。本发明可为机器学习算法中的高维特征选择任务提供更优的选择策略。
技术领域
本发明涉及集成特征选择领域,具体涉及一种基于投票策略的高维特征选择方法。
技术背景
随着计算机存储和计算能力的不断提高和发展,高维数据出现在许多研究和应用领域。所谓的高维数据是指特征的个数远大于观测的个数,该类型的数据对数据的可视化,解释以及存储等有一定的挑战。一般对所关心的指标(响应变量)来说,真正对其起作用的特征并不太多,许多特征都是冗余的,这使得对高维数据进行特征选择变得有意义。因为这样做不仅会降低模型的计算复杂度,也会提高模型的预测性能和数据的可解释性。
传统的特征选择方法对于从同一数据集抽取的不同样本中所选择的特征子集会有很大变化,被认为是一个不稳定的过程。而对于一个特征选择技术来说,我们希望该技术具有较好的稳定性,即希望数据一个很小的波动引起的入选特征集合的改变不大,得到的特征集合是真正对响应起作用的特征。如在一些生物医学数据上,我们可能更关注于哪些特征对响应影响最大,得到一个原始特征集合的一个子集,使得领域专家可以进一步在此特征子集的基础上进行分析,其后续分析的好坏严重地依赖于入选特征子集的质量,这时特征选择技术的稳定性就相当重要。因此为了提高特征选择的稳定性(质量),通常会采用一些集成的方法来实现。具体可参考相关文献:
1.Yvan Saeys,Thomas Abeel and Yves Van de peer..Robust featureselection using ensemble feature selection techniques.In Joint EuropeanConference on Machine Learning and Knowledge Discovery in Databases.ECMLPKDD,2008.Part II,LNAI 5212,pp.313-325.
2.Chenglong Ye,Yi Yang,Yuhong Yang..Sparsity oriented importanceleaming for high-dimensional linear regression.Journal of the American StatisticalAssociation.2018.Mol.113,No.524,pp.1-16.
3.Nicolai Meinshausen,Peter Bühlmann.Stability selection.Journal ofthe Royal Statistical Society:Series B(Statistical Methodology).2010.Vol.72,pp.417-473.
4.Rajen D.Shan and Richard J.Samworth.Variable selection with errorcontrol:another look at stability selection.J.R.Statist.Soc.B.2013 Vol.75,pp.55-80.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010173410.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能洗衣柜的设备控制系统
- 下一篇:一种轻烧窑加热装置