[发明专利]一种基于局部密度信息的软件缺陷数据自适应过采样方法在审

专利信息
申请号: 202111116252.7 申请日: 2021-09-23
公开(公告)号: CN113936185A 公开(公告)日: 2022-01-14
发明(设计)人: 方景龙;毛轶豪;邵艳利;王兴起;魏丹 申请(专利权)人: 杭州电子科技大学
主分类号: G06V10/774 分类号: G06V10/774;G06V10/762;G06V10/764;G06V10/771;G06K9/62
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 杨舟涛
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 局部 密度 信息 软件 缺陷 数据 自适应 采样 方法
【权利要求书】:

1.一种基于局部密度信息的软件缺陷数据自适应过采样方法,其特征在于,该方法具体包括以下步骤:

步骤1、对软件缺陷数据集中的原始数据进行预处理,对原始数据归一化和降维;

步骤2、利用步骤1处理后的数据,对VAE模型进行训练;

步骤3、自适应分组采样,具体操作如下:

步骤3-1:对有缺陷的类别实例分组;

设有缺陷的类别为少数类实例,无缺陷的类别为多数类实例;根据数据集中的少数类实例的局部密度分布情况提出了一个基于少数类的局部密度信息分组方法MGLDI;

根据少数类实例的局部密度信息,对步骤1处理后的训练集中的少数类实例集合分成四个组:安全组、边界组、离群组和危险组;MGLDI方法分为两步,第一步用于确定属于危险组和边界组的少数类实例,第二步用于确定属于安全组和离群组的少数类实例;第一步中参考了DBSCAN密度聚类算法中的密度扩张思想,并重新定义了DBSCAN密度聚类算法中的三个概念:定义核心对象为邻域内的多数类实例超过邻域密度阈值的多数类对象;定义边界对象为能和核心对象密度可达,但是邻域内的多数类实例低于邻域密度阈值的多数类对象;定义噪声对象为除了核心对象和边界对象外的其他多数类实例;

第一步中,首先将训练集划分成多数类实例集合和少数类实例集合,每个少数类实例记录两个计数标记:核心标记和边界标记,两种标记的初始值均为零;随后,每次迭代随机选择一个未被访问过的多数类实例,统计该实例邻域范围内的其他实例信息;如果该实例为核心对象,将其邻域范围内的少数类实例的核心标记数增加1,同时,将其邻域范围内边界对象邻域内的少数类实例的边界标记数增加1;然后将其邻域范围内的其他核心对象加入队列,用于下一次迭代访问;如果该实例为噪声对象,则忽略;当所有多数类实例均被访问过时,算法停止;最后,统计所有被标记过的少数类实例,如果实例的核心标记数超过指定阈值,则将实例加入危险组;否则将其加入边界组;

第二步中,首先排除第一步中已标记过少数类实例,对训练集其他剩余的少数类实例使用DBSCAN算法进行密度聚类;聚类结束后,将能够聚成簇的少数类实例加入安全组;对于未能够聚成簇的少数类实例,将其加入离群组;

步骤3-2:分组过采样,针对不同分组下的少数类实例采用合适的过采样方法来提高合成样本的质量,具体操作如下:

步骤3-2-1:为不同分组制定针对性的自适应过采样策略;

对于安全组的实例,使用SMOTE-Out算法作为作为安全区的采样策略,扩大合成实例的分布范围,减少创建无意义实例的概率,在一定程度上缓解边缘分布化的现象;

对于边界组的实例,采用SMOTE算法配以一个较小的K值(k=3),同时根据局部密度信息为根样本和辅助样本分别设置一个安全系数;样本周围多数类数量越多,安全系数越低;让新合成的实例更加接近安全系数高的样本,从而降低新生成的实例处于边界重叠区域的风险;

针对离群区的实例,使用VAE对其进行重构;

对于处于危险组的少数类实例,使用ROS过采样方法直接复制原始样本作为合成样本,防止通过VAE方法或线性插值方法在原实例周围合成出新的噪声点;

步骤3-2-2:每次从步骤1处理后的训练集中随机选择一个少数类实例;若该实例属于安全组,使用SMOTE-Out算法对该实例合成新实例;若该实例属于边界组,使用SL-SMOTE算法并辅以较小的k近邻参数(k=3)对该实例合成新实例;若该实例属于离群组,将该实例输入训练好的VAE模型,使用VAE对该实例重构出新实例;若该实例属于危险组,使用ROS算法对该实例合成新实例;最后将合成的新实例加入训练集;

步骤3-3:重复步骤3-2-2,直到训练集中两类实例数量相等,训练集两类数据数量达到平衡。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111116252.7/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top