[发明专利]一种基于局部密度信息的软件缺陷数据自适应过采样方法在审
申请号: | 202111116252.7 | 申请日: | 2021-09-23 |
公开(公告)号: | CN113936185A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 方景龙;毛轶豪;邵艳利;王兴起;魏丹 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/762;G06V10/764;G06V10/771;G06K9/62 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨舟涛 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 密度 信息 软件 缺陷 数据 自适应 采样 方法 | ||
本发明公开了一种基于局部密度信息的软件缺陷数据自适应过采样方法,本发明首先在数据预处理阶段使用Min‑Max归一化方法统一量纲,使用提出的AgglomerativeClustering‑Relief特征选择方法,降低数据维度并删除冗余特征。然后在自适应分组采样阶段,通过分析在低维状态下的少数类实例的局部密度信息,将所有少数类实例根据各自的分布特点划分至不同的分组,并针对不同分组中的少数类实例,采用针对性的过采样策略进行自适应过采样。最终使数据集中两类样本数量达到平衡,从数据层面解决不平衡问题。
技术领域
本发明是对类不平衡数据集中少数类实例的一种数据过采样方法,旨在使用该技术后能够平衡软件缺陷数据集中的两类样本数量,从而提高分类器对缺陷样本的分类精度,降低软件测试的成本。
背景技术
软件缺陷预测领域中的数据集天然存在类不平衡问题,在类不平衡的数据集上训练得到的预测模型在预测时会使预测结果更加倾向于多数类,在少数类上分类器的性能表现会变差,而少数类代表有缺陷的实例,其预测性能的表现更为重要。因此,类不平衡问题被认为是影响软件缺陷预测性能的主要因素之一,越来越多的研究人员正在努力解决软件缺陷预测中的类不平衡问题。
样本采样技术、代价敏感学习、分类阈值移动和集成学习是当下较为流行的解决类不平衡的方法。代价敏感学习方法对数据集中的有缺陷和无缺陷实例赋予不同的误分类代价,但是通常需要领域先验知识来提供代价矩阵,这在许多现实问题中并不适用。分类阈值移动方法在算法分类过程中,根据有缺陷和无缺陷样本的比例对阈值进行移动,根据改变后的阈值在分类器上进行预测,但是很难建立阈值参数与不平衡分类精度间的定量关系。集成学习方法通过结合多个基分类器来得到一个具有更强分类性能的分类器,效果通常较好,但是计算开销较大。
相比于其他方法而言,样本采样技术只在数据层面改变数据的分布情况,易于实践,并且独立于具体的分类模型。样本采样技术又分为过采样技术和欠采样技术两种,其中过采样技术不会丢失数据中有价值的信息,其效果通常优于欠采样技术,SMOTE方法是使用最广泛的过采样方法。研究人员根据现有SMOTE方法中存在的不足提出了许多基于SMOTE的改进算法,这些改进算法虽然在解决样本的多样性问题、模糊决策边界问题、合成样本噪声问题等方面取得了一些进展,但是没有全面考虑到数据集中少数类样本各自的分布特点,导致合成的少数类实例质量不高等问题,少数类样本的分类精度仍有待提高。
发明内容
本发明针对现有技术的不足,提出了一种基于局部密度信息的软件缺陷数据自适应过采样方法,本发明结合了业内流行的基于传统SMOTE过采样方法的改进方法以及近几年被用于过采样领域的VAE过采样方法。首先在数据预处理阶段使用Min-Max归一化方法统一量纲,使用提出的AgglomerativeClustering-Relief特征选择方法,降低数据维度并删除冗余特征。然后在自适应分组采样阶段,通过分析在低维状态下的少数类实例的局部密度信息,将所有少数类实例根据各自的分布特点划分至不同的分组,并针对不同分组中的少数类实例,采用针对性的过采样策略进行自适应过采样。最终使数据集中两类样本数量达到平衡,从数据层面解决不平衡问题。
本发明方法具体包括以下步骤:
步骤1、对软件缺陷数据集中的原始数据进行预处理,对原始数据归一化和降维;
步骤2、利用步骤1处理后的数据,对VAE模型进行训练,具体操作如下:
将步骤1处理后的训练集中的有缺陷的类别实例集合作为VAE模型的输入数据向量。在训练过程中,通过反向传播的机制,最小化VAE的损失函数来更新结点的权重;训练好的VAE模型保存有有缺陷的类别样本的分布信息,根据后续输入的有缺陷的类别样本重构出与原始样本相似却不相同的新样本。
步骤3、自适应分组采样,具体操作如下:
步骤3-1:对有缺陷的类别实例分组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111116252.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数显卡尺容栅传感器制造工艺
- 下一篇:一种哑铃架
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置