[发明专利]一种基于聚类集成的软件缺陷预测方法在审
申请号: | 202211224284.3 | 申请日: | 2022-10-08 |
公开(公告)号: | CN115994310A | 公开(公告)日: | 2023-04-21 |
发明(设计)人: | 李志强;谢娟英;祁超 | 申请(专利权)人: | 陕西师范大学 |
主分类号: | G06F18/23 | 分类号: | G06F18/23;G06N20/20;G06F11/36 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 田甜 |
地址: | 710119 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 集成 软件 缺陷 预测 方法 | ||
1.一种基于聚类集成的软件缺陷预测方法,其特征在于,包括:
从给定的项目数据中有放回的随机抽样N个软件实体x,从随机抽样的N个软件实体x中随机抽取m个度量元,形成数据集X*,其中N为项目数据的软件实体总数;
基于数据集X*,采用聚类算法,构建无监督软件缺陷预测模型;
根据无监督软件缺陷预测模型对软件实体进行缺陷预测,并对预测结果进行有缺陷和无缺陷标注,得到软件实体包含缺陷和无缺陷标注的预测标签向量p;
将所述预测标签向量p去除重复抽样的软件实体;
重复抽样数据集X*并生成预测标签向量p多次,对于被抽取到的软件实体xi,计算其被预测所生成的预测标签向量p(xi)的平均值P(xi),将P(xi)作为其集成预测结果;
若P(xi)大于0.5则说明所抽取的软件实体xi存在缺陷,若P(xi)小于等于0.5则说明所抽取的软件实体xi没有缺陷。
2.根据权利要求1所述的一种基于聚类集成的软件缺陷预测方法,其特征在于,
所述项目数据为待测软件项目的数据,软件实体指从程序代码或开发过程中抽取的实例模块,为方法、类、文件、包或代码变更。
3.根据权利要求2所述的一种基于聚类集成的软件缺陷预测方法,其特征在于,还包括:采用z-score方法,对给定的项目数据进行归一化处理;
所述归一化处理算法如下:
其中,xi是软件实体x第i个度量元的原始值,xi*是xi归一化后的值,μx是软件实体x的平均值,σx是软件实体x的标准差。
4.根据权利要求1所述的一种基于聚类集成的软件缺陷预测方法,其特征在于,所述聚类算法为谱聚类,其算法为:
构建邻接矩阵W,其算法为:
计算拉普拉斯矩阵L,其算法为:
L=D-W
其中,D为度矩阵,为一个对角矩阵,其对角线元素
规范化拉普拉斯矩阵L得到Lsym,其算法为:
对Lsym进行特征值分解,选取其次小特征值所对应的特征向量ν,并将其标准化,得到无监督软件缺陷预测模型。
5.根据权利要求4所述的一种基于聚类集成的软件缺陷预测方法,其特征在于,所述对预测结果进行有缺陷和无缺陷标注包括:
将ν分为两簇,把ν0所对应的软件实体标记为缺陷类,把ν≤0所对应的软件实体标注为无缺陷类,如果ν0所对应软件实体的总体度量元值小于ν≤0所对应软件实体的总体度量元值,则将ν0所对应的软件实体标注为无缺陷类,其余的标注为缺陷类。
6.根据权利要求1所述的一种基于聚类集成的软件缺陷预测方法,其特征在于,所述集成预测结果P(xi)算法为:
其中,xi为被抽取到的待测软件实体,表示实际抽取到软件实体xi的次数,pj(xi)为抽取到的软件实体xi第j次预测所得到的标签向量。
7.根据权利要求1所述的一种基于聚类集成的软件缺陷预测方法,其特征在于,所述有放回的随机抽样N个软件实体x包括:每次有放回的从给定项目数据X={x1,x2,…,xN}∈RM×N中抽取1个实体,共抽取N次,其中M表示项目数据X的软件度量元个数,N表示数据X的软件实体个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西师范大学,未经陕西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211224284.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多级临界速度可调和回程可控的智能减速顶
- 下一篇:悬架装置