[发明专利]一种多元离散的特征选择方法、装置、设备及存储介质在审
申请号: | 201810803572.1 | 申请日: | 2018-07-20 |
公开(公告)号: | CN109284766A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 亢俊皓;周宇;郭海男;林继平 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳青年人专利商标代理有限公司 44350 | 代理人: | 吴桂华 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 粒子 粒子位置 目标数据 最优位置 个体最优位置 种群 存储介质 离散数据 特征选择 粒子群 适应度 分类学习算法 机器学习技术 公式计算 继续执行 冗余特征 停止条件 初始化 正确率 切点 寻优 输出 更新 | ||
本发明适用机器学习技术领域,提供了一种多元离散的特征选择方法、装置、设备及存储介质,该方法包括:根据寻找到目标数据集中每个特征对应的切点对粒子群进行初始化,获得每个粒子的粒子位置,根据粒子位置对目标数据集进行数据离散,得到对应的离散数据集,根据离散数据集,通过适应度公式计算每个粒子的适应度,以找到粒子群的种群最优位置和每个粒子所经过的个体最优位置,当满足停止条件时,输出种群最优位置,以作为目标数据集选择出的特征,否则,根据种群最优位置和个体最优位置,更新每个粒子的粒子位置,并继续执行数据离散和寻优的操作,从而实现选择更少的特征,提高冗余特征与无关特征的消除效果,进而提高分类学习算法的正确率。
技术领域
本发明属于机器学习技术领域,尤其涉及一种多元离散的特征选择方法、装置、设备及存储介质。
背景技术
随着大数据时代的来临,数据的重要性日益凸显,海量的数据推动着信息社会的发展,然而数据维度的不断增长,“维度灾难”将无法避免。近年来,机器学习被应用于各种大数据场景之中,例如,DNA微阵列分析、图像分类、文本分类等,由于这些数据具有较高的数据维度,同时数据中存在一些不相关的数据特征和冗余特征,直接使用原始的数据将会影响学习算法的效率和性能,因此,在机器学习过程中,需要对原始数据进行特征选择、数据离散等一系列预处理操作,以减少数据特征数量,使得学习算法可以生成一个较好的数据模型,从而提高算法的执行效率和算法的拟合精度。
特征选择也叫特征子集选择(Feature Subset Selection,简称FSS),例如一个数据存在N个特征,那么该数据就具有(2N-1)个特征子集可供选择。特征选择是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。特征选择的任务实际是一个组合优化问题,特征选择过程中,由于特征数目繁多,搜索空间较大,所以需要搜索算法去获得最优的选择方案,存在的搜索方法有序列前向选择(SFS)和序列后向选择(SBS),然而这些算法不仅需要很大的计算代价,同时容易陷入局部最优,因此需要具有全局搜索能力的启发式搜索算法应用到特征选择中。
粒子群算法(Particle Swarm Optimization,简称PSO)是近年来由J.Kennedy和R.C Eberhart提出的一种新的进化算法(Evolutionary Algorithm,简称EA),其凭借算法简单、快速等优势已广泛应用于特征选择中,粒子群算法将问题的每个可能解当作一个粒子,然后通过一个适应度函数Fiteness评价粒子的好坏,它通过记录每个粒子所经过的最佳位置(pbest)和种群经过的最佳位置(gbest)来进行引导粒子更新。
常见的使用PSO来进行特征选择的算法有连续PSO(Continuous PSO)和二进制PSO(Binary PSO),这些算法证明了类似PSO的启发式搜索算法可以在特征选择上取得较好的效果。然而这些算法在处理数据维度非常高的数据集(例如医学基因数据)时,仍无法取得比较好的效果。因此,J.Kennedy提出了一种基于PSO算法的改进算法----骨干粒子群优化算法(Bare-Bone Particle Swarm Optimization,简称BBPSO),相比于PSO算法,它拥有更简单的更新机制和更快的收敛速度,Binh Tran等人提出了基于BBPSO的特征选择算法----进化粒子群算法(Evolve Particle Swarm Optimization,简称EPSO)和对EPSO算法改进的潜在粒子群优化(Potential Particle Swarm Optimization,简称PPSO)算法,相比较传统的特征选择算法,这两个算法能快速的去除掉那些冗余特征和不相关特征,特别是在高特征维度的数据集中,具有非常好的效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810803572.1/2.html,转载请声明来源钻瓜专利网。