[发明专利]一种基于谱聚类的软件缺陷特征选择方法在审

专利信息
申请号: 202010116211.7 申请日: 2020-02-25
公开(公告)号: CN111338950A 公开(公告)日: 2020-06-26
发明(设计)人: 严亮;许嘉熙;艾骏 申请(专利权)人: 北京高质系统科技有限公司;北京航空航天大学
主分类号: G06F11/36 分类号: G06F11/36;G06K9/62
代理公司: 北京中索知识产权代理有限公司 11640 代理人: 胡大成
地址: 101204 北京市平谷区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 谱聚类 软件 缺陷 特征 选择 方法
【说明书】:

发明公开了一种基于谱聚类的软件缺陷特征选择方法,包括如下步骤:导入待进行特征选择的软件缺陷数据集,并提取软件缺陷预测特征集;剔除软件缺陷预测特征集中的无关特征;建立特征间相关性矩阵;基于谱聚类对特征集进行聚类分析,得到若干组高内聚低耦合的特征簇;计算出特征簇中每个特征的质量系数,依照特征质量系数对特征进行排序,将排序结果作为特征前项选择的搜索顺序,并选择机器学习性能最佳的特征子集作为软件缺陷特征集。该方法解决了主流特征选择方法无法兼顾无关特征和冗余特征排除、特征选择算法性能随特征数量增加而迅速下降、选择出的特征子集通用性不强、用于预测效果不好等缺陷。

技术领域

本发明涉及软件缺陷预测及软件可靠性技术领域,特别涉及一种基于谱聚类的软件缺陷特征选择方法。

背景技术

21世纪以来,软件在社会生活中的地位日益提升,无处不在,已经不仅仅局限于工程、科研、经济等专业领域,更是走进了千家百户,成为了人们生活中举足轻重的工具。随着软件系统规模日益增加,复杂程度呈几何式提升,软件的缺陷也与日俱增,而软件缺陷导致的影响也辐射到了人民生活的方方面面。

软件缺陷数据是软件可靠性相关研究和应用的基础。长期以来,软件可靠性领域使用的缺陷数据主要来自于有限的软件测试数据和使用中故障的分析数据。虽然这类缺陷数据相对完整,但是缺陷数据量太少、覆盖面不足、涉及软件类型有限,已经成为了软件可靠性研究和应用的瓶颈。互联网的出现,使我们进入了大数据的时代,目前最大的开源项目网站GitHub.com已经拥有了数千万个开源软件项目,GitHub的发展使我们利用互联网获得海量的软件缺陷数据成为了可能。但是GitHub并非为软件缺陷采集而设立,其设立的主要目的还是为了实现开源软件的协同开发和共享,因此直接从中获得有价值的缺陷信息并非易事,主要面临着缺陷信息不完整、描述不规范、缺陷代码不突出、开发分支过多、开发代码和缺陷修改代码混杂等多种不利因素。

在软件的全寿命周期当中,如何提高软件的质量,对软件的缺陷进行识别和修复已经成为一个重要的研究命题。由于相当一部分的软件缺陷有其独有特征,根据历史缺陷信息,可以提取出相应的软件缺陷代码特征及其相关的上下文环境特征,在出现软件失效之前尽早地识别软件可能存在的影响其可靠性、安全性、可用性、兼容性等软件质量特性的缺陷模块,从而达到缺陷预测和预防的效果。

随着机器学习技术和深度学习技术的出现和不断推进,软件缺陷预测技术从一开始的人工学习为主逐步转向以机器学习作为重要工具。由于学习能力和数据处理能力的大幅度提高,学习更加庞大的软件缺陷数据集,从而利用机器学习中的关联规则、分类器算法、聚类算法等对软件的缺陷特征进行分析和预测成为了主流趋势。

高维数据给机器学习模型带来了挑战,特征集中往往存在着冗余、不相关特征,特征选择工程可以提升软件缺陷预测模型的准确性,降低算法的时间和空间复杂度,提高模型解释力。目前主流的特征选择方法有两种:过滤式特征选择方法按照内部特征或者相关性对各个特征进行评分,设定阈值或者选择阈值的个数选择特征。包裹式特征选择方法对于每一个的特征子集,均训练一个分类器,根据分类器的性能对该特征子集进行评价,在选择分类器性能最好对应的最优特征子集。

然而,当前主流的这两种特征选择方法都有其显著的缺陷。由于过滤式特征选择方法的评价标准独立于特定的学习算法,所选分类准确率较低,另外过滤式特征选择方法没有考虑特征内部的相关性,如果两个内部关联性较强的特征与软件缺陷的相关性都比较强,过滤式特征选择方法产生的特征子集将会存在很强的冗余信息,对于预测性能和精度都有一定的影响。包裹式特征选择方法特征通用性不强,当改变学习算法时,需要针对该学习算法重新进行特征选择,另外子集空间随着特征数量的增加呈指数爆炸,算法性能随之下降。

因此,如何结合特征内部相关性和特征-缺陷相关性,降低特征数量带来指数爆炸的影响,实现一种通用性高、准确率指标好的软件缺陷特征选择方法称为了软件缺陷预测领域需要解决的问题。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京高质系统科技有限公司;北京航空航天大学,未经北京高质系统科技有限公司;北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010116211.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top