[发明专利]一种对不均衡数据进行处理的方法及系统在审
申请号: | 201711170061.2 | 申请日: | 2017-11-22 |
公开(公告)号: | CN108319967A | 公开(公告)日: | 2018-07-24 |
发明(设计)人: | 张雪莹;李瑞贤;杨云祥;郭静;吉祥;胡校成;唐先超;宋超;江逸楠;段锐;阳兵 | 申请(专利权)人: | 中国电子科技集团公司电子科学研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 于金平 |
地址: | 100041 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 不均衡 数据处理 最近邻算法 个人使用 实例学习 学习性能 有效解决 数据集 偏好 预测 学习 | ||
1.一种对不均衡数据进行处理的方法,其特征在于,包括:
构建元知识数据库;
基于实例学习的k-最近邻算法给出未知数据集上所有候选不均衡数据处理方法的排名。
2.根据权利要求1所述的方法,其特征在于,构建元知识数据库具体包括:
根据历史不均衡数据集,抽取描述数据集本身特征的度量,构建特征向量作为元特征,同时评估各数据集上所有候选不均衡数据处理方法的分类性能,并将所有方法按分类性能排序,获取相应的排名作为元目标;然后,将每个数据集的特征向量与不均衡数据处理方法的排名一一对应,建立数据集特征-不均衡数据处理方法的排名的元知识数据库。
3.根据权利要求1所述的方法,其特征在于,构建元知识数据库的步骤之后,基于实例学习的k-最近邻算法给出未知数据集上所有候选不均衡数据处理方法的排名的步骤之前,还包括:
对待处理的不均衡数据集进行元特征提取,并对待处理的不均衡数据集进行元目标识别。
4.根据权利要求3所述的方法,其特征在于,对待处理的不均衡数据集进行元特征提取,具体包括:
通过数据集特征度量描述不均衡分类问题的本质特征。
5.根据权利要求4所述的方法,其特征在于,
所述数据集特征度量包括传统的特征度量、问题复杂度、Landmarking度量、基于模型度量以及结构信息度量中的一种或多种。
6.根据权利要求3所述的方法,其特征在于,所述对待处理的不均衡数据集进行元目标识别,具体包括:
基于不均衡数据集的分类精度AUC以及运行时间衡量不均衡数据处理方法的性能,对待处理的不均衡数据集进行元目标识别。
7.根据权利要求6所述的方法,其特征在于,还包括:
通过Spearman序列相关系数衡量推荐的不均衡数据处理方法的排名与实际排名之间的一致性,其中,rri和iri分别代表不均衡数据处理方法i的推荐排名和实际排名,m是候选不均衡数据处理方法的个数。rs的取值范围为[-1,1],rs越大,推荐排名与实际排名越相关。当推荐排名与实际排名完全吻合时,则rs=1;当推荐排名与实际排名不完全吻合时,rs≤1;时,当推荐排名与实际排名不相关,则rs=0;当推荐排名与实际排名完全相反,则rs≤-1;
当推荐的不均衡数据处理方法的分类性能落在区间内时,表明推荐的是最优不均衡数据处理方法;否则,表明推荐的方法不可用,其中NT为指测试集大小,ω为置信度。
8.根据权利要求1所述的方法,其特征在于,基于实例学习的k-最近邻算法给出未知数据集上所有候选不均衡数据处理方法的排名,具体包括:
通过极值法对元知识数据库中的元特征及待分类数据集的特征向量均映射到[0,1]区间;
基于规范化后的元知识数据库,通过公式找出与待分类数据集最相似的k个最近邻,其中,data表示待分类数据集,di代表元知识数据库中第i个数据集,Vx,data和Vx,di分别代表数据集data和di中第x个元特征值。
9.一种对不均衡数据进行处理的系统,其特征在于,所述系统包括处理器、存储器及通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的计算机指令,以实现权利要求1至9中任一项所述的对不均衡数据进行处理的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司电子科学研究院,未经中国电子科技集团公司电子科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711170061.2/1.html,转载请声明来源钻瓜专利网。