[发明专利]一种基于森林算法的特征选择方法、装置及系统在审
申请号: | 202010223460.6 | 申请日: | 2020-03-26 |
公开(公告)号: | CN113449752A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 贾冬冬;鲁威;孙迁 | 申请(专利权)人: | 苏宁云计算有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 森林 算法 特征 选择 方法 装置 系统 | ||
1.一种基于森林算法的特征选择方法,其特征在于,所述方法包括如下步骤:
初始化数据集,确定每个特征子集大小;
遍历所述数据集中所有特征,将所述所有特征进行分组;
计算每个所述特征子集需添加的邻居特征子集数量,将所述邻居特征子集加入所述数据集;
提取部分特征子集构建候选集;
选择所述候选集中的部分特征子集,遍历该部分特征子集,将该部分特征子集加入所述数据集;
确定所述数据集的最优特征子集,继续计算所述最优特征子集需添加的邻居特征子集数量,满足迭代次数时停止,得到全局最优特征子集。
2.根据权利要求1所述的方法,其特征在于,所述初始化数据集,确定每个特征子集大小,进一步包括:
确定所述特征子集大小;
初始化所述特征子集的每个特征,每个所述特征随机初始化特征值为0或1;
设置所有所述特征子集的当前值为0。
3.根据权利要求2所述的方法,其特征在于,所述特征子集大小通过选址机制确定,所述选址机制为:
其中,f表示原始数据集中的特征数量,sf表示特征子集中初始化特征值为1的特征数量,l表示f与sf的距离,P(sf)表示决定初始化特征数量sf的权重值。
4.根据权利要求3所述的方法,其特征在于,所述遍历所述数据集中所有特征,将所述所有特征进行分组,进一步包括:
遍历所述数据集中所有特征,分别计算所有所述特征的重要度;
依次排序每个所述特征的重要度;
按照所述重要度将所有所述特征分为高质量特征组和低质量特征组,所述高质量特征组中最低的重要度不低于所述低质量特征组中任意特征的重要度。
5.根据权利要求4所述的方法,其特征在于,所述计算每个所述特征子集需添加的邻居特征子集数量,将所述邻居特征子集加入所述数据集,进一步包括:
遍历当前值为0的特征子集,计算所述特征子集的待添加邻居特征子集的数量;
从所述高质量特征组随机选取|a-α|个特征添加到当前邻居特征子集,且从所述低质量特征组随机选取|b-β|个特征并从当前邻居特征子集中移除对应的特征,其中,a表示高质量特征组的特征数量,α表示增加特征的数量,b表示低质量特征组的特征数量,β表示移除当前特征子集中特征的数量,α=λ*sf,β=(1-λ)*sf,λ为常数;
设置所述邻居特征子集的当前值为0,并加入所述数据集中。
6.根据权利要求5所述的方法,其特征在于,所述提取部分特征子集构建候选集,进一步包括:
计算所述数据集中每一所述特征子集的适应度并排序;
选择适应度低的特征子集构建候选集,所述适应度值低的特征子集的数量为所述数据集中所有特征子集的数量与预设最大约定数量的差值。
7.根据权利要求6所述的方法,其特征在于,所述选择所述候选集中的部分特征子集,遍历该部分特征子集,将该部分特征子集加入所述数据集,进一步包括:
从所述候选集中选取部分特征子集;
遍历所述选取的每个特征子集,从所述低质量特征组随机选取一定数量的特征添加到当前特征子集,且从所述高质量特征组随机选取一定数量的特征并从当前特征子集中移除对应的特征;
设置当前特征子集的当前值为0,并加入所述数据集中。
8.根据权利要求7所述的方法,其特征在于,所述确定所述数据集的最优特征子集,继续计算每个所述特征子集需添加的邻居特征子集数量,满足迭代次数时停止,得到全局最优特征子集,进一步包括
根据所述数据集中特征子集的适应度进行排序,确定适应度最高的特征子集为最优特征子集;
设置所述最优特征子集的当前值为0,跳转计算所述最优特征子集需添加的邻居特征子集数量,直到满足迭代次数时停止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁云计算有限公司,未经苏宁云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010223460.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水声信号处理装置
- 下一篇:一种被用于无线通信的通信节点中的方法和装置