[发明专利]一种基于森林算法的特征选择方法、装置及系统在审
申请号: | 202010223460.6 | 申请日: | 2020-03-26 |
公开(公告)号: | CN113449752A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 贾冬冬;鲁威;孙迁 | 申请(专利权)人: | 苏宁云计算有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 森林 算法 特征 选择 方法 装置 系统 | ||
本发明公开了一种基于森林算法的特征选择方法、装置及系统。方法包括初始化数据集,确定每个特征子集大小;遍历数据集中所有特征,将所有特征进行分组;计算每个特征子集需添加的邻居特征子集数量,将邻居特征子集加入数据集;提取部分特征子集构建候选集;选择候选集中的部分特征子集,遍历该部分特征子集,将该部分特征子集加入数据集;确定数据集的最优特征子集,继续计算最优特征子集需添加的邻居特征子集数量,满足迭代次数时停止,得到全局最优特征子集。本发明能保证数据集中每个特征子集具有较高的质量,很大程度上减少了寻找最优特征子集的迭代次数加快算法的搜索效率,提高分类的准确率。
技术领域
本发明涉及人工智能技术领域,特别涉及一种基于森林算法的特征选择方法、装置及系统。
背景技术
随着大数据的时代的到来,具有大量实例和高维的数据集给数据挖掘带来了极大的挑战。这个挑战主要包括两个方面:首先,在分类过程中,数据集通常包含大量的特征,并不是所有的特征对于分类都是有用的,数据集中的一些冗余和不相关的特征会严重降低分类器的准确率。另一方面,在数据处理过程中,我们需要花费大量的宝贵时间和昂贵的资源处理高维度的数据,从而严重降低了模型的学习速率。因此,克服这个问题的一个常见方法是通过去除不相关和冗余的特征并选择一个有用的子集来降低维数。特征选择一种常用的降维技术,目前在数据挖掘、机器学习、文本挖掘和图像处理等领域都有广泛的使用。特征选择的目的主要是提高模型学习效率,在构建分类模型的过程中,算法保留对分类有用的特征,剔除那些冗余和不相关的特征,能够降低模型的复杂程度,从而能够提高分类的准确率,避免出现过拟合现象。
目前通过基于森林优化算法的特征选择以解决离散型问题。该算法和遗传算法、量子群、布谷鸟算法都属于空间搜索算法,都是寻找近似最优解问题。然而森林优化算法的自身的搜索策略上存在着不足,即在局部播种阶段,一些邻居特征子集被添加到森林中,邻居特征子集代表着对特征空间进一步的新的搜索。而这种搜索策略的搜索力度较小,每次只选择一个特征对其进行评价,不能最大程度的保证森林中特征子集的质量并且搜索效率偏低。其次,在初始化阶段森林中每棵特征子集所选择的特征数量都是随机生成的,如果在初始化阶段森林中大多数特征子集随机选择的特征数量接近于原始数据集的特征数量,那么对于森林优化算在特征空间搜索最优解来说,森林中的特征子集所处的搜索位置距离最优解的位置较远,从而导致算法在一开始搜索效率就较低。另一方面,在每次迭代中添加邻居的特征子集的数量总是取决于数据集中特征的数量,而忽视了当前所选择的特征子集与当前最优特征子集之间的关系。对于很接近最优特征子集的一些特征子集,过多的添加邻居特征子集会导致大量不必要的计算,从而导致算法的收敛慢。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种基于森林算法的特征选择方法、装置及系统。所述技术方案如下:
第一方面,提供了一种基于森林算法的特征选择方法,所述方法包括:
初始化数据集,确定每个特征子集大小;
遍历所述数据集中所有特征,将所述所有特征进行分组;
计算每个所述特征子集需添加的邻居特征子集数量,将所述邻居特征子集加入所述数据集;
提取部分特征子集构建候选集;
选择所述候选集中的部分特征子集,遍历该部分特征子集,将该部分特征子集加入所述数据集;
确定所述数据集的最优特征子集,继续计算所述最优特征子集需添加的邻居特征子集数量,满足迭代次数时停止,得到全局最优特征子集。
进一步地,所述初始化数据集,确定每个特征子集大小,进一步包括:
确定所述特征子集大小;
初始化所述特征子集的每个特征,每个所述特征随机初始化为0或1;
设置所有所述特征子集的当前值为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁云计算有限公司,未经苏宁云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010223460.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水声信号处理装置
- 下一篇:一种被用于无线通信的通信节点中的方法和装置