[发明专利]一种对不均衡数据进行处理的方法及系统在审
申请号: | 201711170061.2 | 申请日: | 2017-11-22 |
公开(公告)号: | CN108319967A | 公开(公告)日: | 2018-07-24 |
发明(设计)人: | 张雪莹;李瑞贤;杨云祥;郭静;吉祥;胡校成;唐先超;宋超;江逸楠;段锐;阳兵 | 申请(专利权)人: | 中国电子科技集团公司电子科学研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 于金平 |
地址: | 100041 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 不均衡 数据处理 最近邻算法 个人使用 实例学习 学习性能 有效解决 数据集 偏好 预测 学习 | ||
本发明公开了一种对不均衡数据进行处理的方法及系统,本发明通过基于实例学习的k‑最近邻算法预测出待学习问题上所有候选不均衡数据处理方法的排名,使得用户可依据推荐的排名及个人使用偏好选取最适用的不均衡数据处理方法,获得最优的不均衡学习性能。从而有效解决了现有技术中不能对给定的不均衡数据集,找到最适用的不均衡数据处理方法的问题。
技术领域
本发明涉及通信技术领域,尤其涉及一种对不均衡数据进行处理的方法及系统。
背景技术
不均衡学习问题是数据挖掘与机器学习领域中的一类典型学习问题。类不均衡是指数据集中类分布的先验概率相差悬殊,其中少数类往往是研究人员感兴趣的学习重点。类不均衡数据集广泛存在于现实生活中的各个应用领域,如石油泄漏检测、欺诈检测、医疗诊断、网络入侵检测、缺陷预测及风险评估等。类不均衡分类问题的难点在于它违背了传统分类算法基于类均衡且误分类代价相等的前提假设,类不均衡以及误分类代价不相等使在类均衡数据集上表现较好的传统分类算法,在类不均衡数据集上的分类性能显著下降,特别是少数类样本的分类。近年来,不均衡学习问题已然成为机器学习与数据挖掘领域中的一个极具有挑战性的研究课题。
由于不均衡学习问题以及不均衡数据处理方法多种多样,且实际上并不存在单一的方法在所有不均衡数据集上都能获得最优的分类性能,即不同的不均衡学习问题上,最适用的处理方法也不尽相同。正如“No Free Lunch”(NFL)理论所述:没有一种算法适用于解决所有问题,数据集不同,所适用的方法也不相同。Fulkerson在StatLog项目中进行了充分的实验,全面比较了不同的机器学习、神经网络及统计分类算法在不同领域的数据集上的分类性能,进一步验证了NFL理论。对于给定的不均衡数据集,如何找出该数据集上最适用的不均衡数据处理方法是一个亟待解决的难题。
发明内容
鉴于上述的分析,本发明旨在提供一种对不均衡数据进行处理的方法及系统,用以解决现有技术中不能对给定的不均衡数据集,找到最适用的不均衡数据处理方法的问题。
为解决上述问题,本发明主要是通过以下技术方案实现的:
本发明提供了一种对不均衡数据进行处理的方法,该方法包括:构建元知识数据库;基于实例学习的k-最近邻算法给出未知数据集上所有候选不均衡数据处理方法的排名。
进一步地,构建元知识数据库具体包括:根据历史不均衡数据集,抽取描述数据集本身特征的度量,构建特征向量作为元特征,同时评估各数据集上所有候选不均衡数据处理方法的分类性能,并将所有方法按分类性能排序,获取相应的排名作为元目标;然后,将每个数据集的特征向量与不均衡数据处理方法的排名一一对应,建立数据集特征-不均衡数据处理方法的排名的元知识数据库。
进一步地,构建元知识数据库的步骤之后,基于实例学习的k-最近邻算法给出未知数据集上所有候选不均衡数据处理方法的排名的步骤之前,还包括:
对待处理的不均衡数据集进行元特征提取,并对待处理的不均衡数据集进行元目标识别。
进一步地,对待处理的不均衡数据集进行元特征提取,具体包括:通过数据集特征度量描述不均衡分类问题的本质特征。
进一步地,所述数据集特征度量包括传统的特征度量、问题复杂度、Landmarking度量、基于模型度量以及结构信息度量中的一种或多种。
进一步地,所述对待处理的不均衡数据集进行元目标识别,具体包括:基于不均衡数据集的分类精度AUC以及运行时间衡量不均衡数据处理方法的性能,对待处理的不均衡数据集进行元目标识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司电子科学研究院,未经中国电子科技集团公司电子科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711170061.2/2.html,转载请声明来源钻瓜专利网。