[发明专利]基于样本分布特征和SPY算法的软件缺陷预测方法有效

申请号：	202110703322.2	申请日：	2021-06-24
公开（公告）号：	CN113434401B	公开（公告）日：	2022-10-28
发明（设计）人：	陈滨;俞坚强;方景龙	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F11/36	分类号：	G06F11/36;G06K9/62
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	杨舟涛
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于样本分布特征 spy 算法软件缺陷预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于样本分布特征和SPY算法的软件缺陷预测方法，其特征在于，包括如下步骤：

步骤1)基于软件缺陷数据集提取样本特征；包括获取样本不平衡度、获取同类样本之间的平均距离和获取样本方差；

步骤2)自适应边界k值计算，根据k近邻算法选择边界样本；

a)自适应边界k值计算

不同数据集的分布特征都不相同，k的取值需要根据数据集的分布特征来自适应调整；根据整体数据集的分布情况，从距离和方差两个角度出发，提出了k值的两种计算公式；为了防止边界k过大或者过小，将k值约束了范围，在5至15之间；

从样本个体的距离出发，结合样本整体不平衡率，得到了以下的公式；

s.t.k₁∈[5,15]

式中imblance为样本不平衡率，dp_average为少数类样本之间的平均距离，dn_average为多数类样本之间的平均距离；

从两类样本总体的方差角度出发，结合样本整体的不平衡率，得到了k值的另一个计算公式：

s.t.k₂∈[5,15]

式中imblance为样本不平衡率，S_P为少数类样本的总体方差，S_N为多数类样本的总体方差；

b)边界样本选择

根据得到的边界k值，使用K近邻算法计算每个少数类样本周围的k个近邻样本；在这k个近邻样本中，如果多数类样本的个数多于少数类样本的个数，且近邻少数类样本的个数不为0，则被选为少数类边界样本；

步骤3)对少数类样本进行k近邻运算，计算得到少数类样本周围的近邻样本；对于每一个少数类样本而言，如果其近邻样本中少数类样本的个数大于多数类样本的个数，则说明该样本处于相对较安全的区域，此时，这些近邻样本中的多数类样本视为SPY样本；选择少数类样本周围的SPY样本，使用SPY样本引导边界区域的少数类样本更好地分类，以此来提高整体的软件缺陷预测水平；

步骤4)在边界少数类样本中进行过采样，来平衡数据集；

步骤5)对SPY样本和其他样本分别设置训练权重；

将SPY样本的训练权重设置为0.5，将其他样本的权重都设置为1；权重的控制使得SPY样本在引导边界少数类样本正确分类的同时，减轻对边界区域多数类样本的分类影响，整体上提升总体的分类预测效果；

步骤6)使用机器学习模型进行数据集的训练及预测。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110703322.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于自旋轨道转矩的电流调控磁性随机存储器
下一篇：一种基于注意力机制的自适应融合的多模态情感分类方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F11-00 错误检测；错误校正；监控
G06F11-07 .响应错误的产生，例如，容错
G06F11-22 .在准备运算或者在空闲时间期间内，通过测试作故障硬件的检测或定位
G06F11-28 .借助于检验标准程序或通过处理作错误检测、错误校正或监控
G06F11-30 .监控
G06F11-36 .通过软件的测试或调试防止错误

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于样本分布特征和SPY算法的软件缺陷预测方法有效

专利文献下载