[发明专利]云平台下基于粗糙超立方体的大规模特征选择方法在审
申请号: | 202011561665.1 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112685690A | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 王思朝;罗川;马磊;曹潜;张展云 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F17/16 | 分类号: | G06F17/16;G06N20/00 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 贾年龙 |
地址: | 610041 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 平台 基于 粗糙 立方体 大规模 特征 选择 方法 | ||
1.一种云平台下基于粗糙超立方体的大规模特征选择方法,其特征在于,包括以下步骤:
S1、初始化权重参数ω、λ和预计选择特征的个数d;
S2、初始化已选特征集合S和候选特征子集C;
S3、读取数据集,通过云平台以数据并行地方式分布式计算值域矩阵,再根据值域矩阵分布式计算由特征的超立方等价划分矩阵分解、重构后得到的超立方体等价划分矩阵;
S4、基于分解重构的超立方体等价划分矩阵再以数据并行的方式分布式计算每一个特征与决策属性之间的相关度,选择最相关的特征添加到已选特征集合S中,并从候选特征子集C中删去该特征;
S5、当|S|<d且时,进入步骤S6,否则输出特征集合S;
S6、通过云平台上数据并行地方式,基于分解重构的超立方体等价划分矩阵,并结合缓存-更新-过滤机制的加速方法,分布式计算每一个候选特征对于已选特征集合S的依赖度和平均重要度,若添加某个候选特征到已选特征集合S后,依赖度没有变化,则从候选特征子集C中删除该候选特征;
S7、根据权重参数ω、λ计算每个候选特征的度量标准函数值,挑选该值最大的候选特征添加到已选特征集合S,并从候选特征子集C中删去该特征。
2.根据权利要求1所述的云平台下基于粗糙超立方体的大规模特征选择方法,其特征在于,所述步骤S3中的值域矩阵计算方法为:给定一个决策表U,C∪D,其中,U={x1,x2,...,xn}表示n个样本的集合,且表示集合U可由q个不相交的子集Ui组成;C={A1,A2,...,Am}表示m个条件特征的集合,D表示决策属性集合,U/D={β1,β2,...,βc}表示c个决策类别的集合;通过LU(C)=[(Lij,Uij)]表示值域矩阵,其中Lij表示所有属于决策类别βi的样本在特征Aj下的最小值,Uij表示所有属于决策类别βi的样本在特征Aj下的最大值。
3.根据权利要求2所述的云平台下基于粗糙超立方体的大规模特征选择方法,其特征在于,所述步骤S3中特征的超立方体等价划分矩阵为:
上式中,H(Ak)为特征Ak的超立方体等价划分矩阵,区间[Lik,Uik]为所有属于决策类别βi的样本在特征Ak下的值域。
所述步骤S3中由上述矩阵分解、重构得到的面向云平台的超立方体等价划分矩阵为:
上式中,H{Ak,Up)为子集在特征Ak{Ak∈C)下的超立方体等价划分矩阵,区间[Lik,Uik]为所有属于决策类别βi的样本在特征Ak下的值域。
4.根据权利要求3所述的云平台下基于粗糙超立方体的大规模特征选择方法,其特征在于,所述步骤S4中相关度Jrelev(Ak)的计算公式为:
上式中,混淆向量值表示子集Up中的样本xj在特征Ak是否只属于一个类别,即正区域,该值为0时,表示样本xj只属于一个类别;该值为1时表示样本xj属于多个类别,是误分类的样本,u=|Up|表示子集Up中样本的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011561665.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种对象处理方法及装置
- 下一篇:连续性铝塑材料分离回收系统