[发明专利]一种基于局部密度信息的软件缺陷数据自适应过采样方法在审
申请号: | 202111116252.7 | 申请日: | 2021-09-23 |
公开(公告)号: | CN113936185A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 方景龙;毛轶豪;邵艳利;王兴起;魏丹 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/762;G06V10/764;G06V10/771;G06K9/62 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨舟涛 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 密度 信息 软件 缺陷 数据 自适应 采样 方法 | ||
1.一种基于局部密度信息的软件缺陷数据自适应过采样方法,其特征在于,该方法具体包括以下步骤:
步骤1、对软件缺陷数据集中的原始数据进行预处理,对原始数据归一化和降维;
步骤2、利用步骤1处理后的数据,对VAE模型进行训练;
步骤3、自适应分组采样,具体操作如下:
步骤3-1:对有缺陷的类别实例分组;
设有缺陷的类别为少数类实例,无缺陷的类别为多数类实例;根据数据集中的少数类实例的局部密度分布情况提出了一个基于少数类的局部密度信息分组方法MGLDI;
根据少数类实例的局部密度信息,对步骤1处理后的训练集中的少数类实例集合分成四个组:安全组、边界组、离群组和危险组;MGLDI方法分为两步,第一步用于确定属于危险组和边界组的少数类实例,第二步用于确定属于安全组和离群组的少数类实例;第一步中参考了DBSCAN密度聚类算法中的密度扩张思想,并重新定义了DBSCAN密度聚类算法中的三个概念:定义核心对象为邻域内的多数类实例超过邻域密度阈值的多数类对象;定义边界对象为能和核心对象密度可达,但是邻域内的多数类实例低于邻域密度阈值的多数类对象;定义噪声对象为除了核心对象和边界对象外的其他多数类实例;
第一步中,首先将训练集划分成多数类实例集合和少数类实例集合,每个少数类实例记录两个计数标记:核心标记和边界标记,两种标记的初始值均为零;随后,每次迭代随机选择一个未被访问过的多数类实例,统计该实例邻域范围内的其他实例信息;如果该实例为核心对象,将其邻域范围内的少数类实例的核心标记数增加1,同时,将其邻域范围内边界对象邻域内的少数类实例的边界标记数增加1;然后将其邻域范围内的其他核心对象加入队列,用于下一次迭代访问;如果该实例为噪声对象,则忽略;当所有多数类实例均被访问过时,算法停止;最后,统计所有被标记过的少数类实例,如果实例的核心标记数超过指定阈值,则将实例加入危险组;否则将其加入边界组;
第二步中,首先排除第一步中已标记过少数类实例,对训练集其他剩余的少数类实例使用DBSCAN算法进行密度聚类;聚类结束后,将能够聚成簇的少数类实例加入安全组;对于未能够聚成簇的少数类实例,将其加入离群组;
步骤3-2:分组过采样,针对不同分组下的少数类实例采用合适的过采样方法来提高合成样本的质量,具体操作如下:
步骤3-2-1:为不同分组制定针对性的自适应过采样策略;
对于安全组的实例,使用SMOTE-Out算法作为作为安全区的采样策略,扩大合成实例的分布范围,减少创建无意义实例的概率,在一定程度上缓解边缘分布化的现象;
对于边界组的实例,采用SMOTE算法配以一个较小的K值(k=3),同时根据局部密度信息为根样本和辅助样本分别设置一个安全系数;样本周围多数类数量越多,安全系数越低;让新合成的实例更加接近安全系数高的样本,从而降低新生成的实例处于边界重叠区域的风险;
针对离群区的实例,使用VAE对其进行重构;
对于处于危险组的少数类实例,使用ROS过采样方法直接复制原始样本作为合成样本,防止通过VAE方法或线性插值方法在原实例周围合成出新的噪声点;
步骤3-2-2:每次从步骤1处理后的训练集中随机选择一个少数类实例;若该实例属于安全组,使用SMOTE-Out算法对该实例合成新实例;若该实例属于边界组,使用SL-SMOTE算法并辅以较小的k近邻参数(k=3)对该实例合成新实例;若该实例属于离群组,将该实例输入训练好的VAE模型,使用VAE对该实例重构出新实例;若该实例属于危险组,使用ROS算法对该实例合成新实例;最后将合成的新实例加入训练集;
步骤3-3:重复步骤3-2-2,直到训练集中两类实例数量相等,训练集两类数据数量达到平衡。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111116252.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数显卡尺容栅传感器制造工艺
- 下一篇:一种哑铃架
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置