[发明专利]一种基于聚类分析和决策树算法的软件缺陷预测方法在审
申请号: | 202111382959.2 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114816979A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 李震;杨学刚;李彤;王泽威 | 申请(专利权)人: | 江苏科技大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06K9/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 212008 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 聚类分析 决策树 算法 软件 缺陷 预测 方法 | ||
本发明公开了一种基于聚类分析和决策树算法的软件缺陷预测方法,步骤如下:(1)用网络爬虫技术对软件信息进行爬取;(2)利用新度量元对大量样本数据进行分析;(3)使用聚类分析技术将数据划分成多个类别形成家族簇;(4)对样本运用决策树算法进行分析,完成分类;(5)根据分类数据以及引用的度量元、指标信息形成谱系图;(6)利用谱系数据进行判断,区分新版本的软件信息与历史版本之间数据信息的异同,根据与历史版本谱系比较确定软件缺陷范围。本发明与现有的软件预测方法相比减少了软件修复时间的同时也能尽量保持其自动化程度;能够对大量软件样本进行较为准确的分类;根据谱系,从软件的演化过程确定缺陷的分布。
技术领域
本发明涉及预测软件,特别是一种基于聚类分析和决策树算法的软件缺陷预 测方法。
背景技术
在互联网技术和全球云计算的大力发展环境下,各种语言软件的开发者人数 连续数年高速增长,并保持有着广阔的前景和显著的优势。随着软件应用领域的 不断扩大,软件质量要求越来越高,软件缺陷度量成为软件开发的必要步骤。软 件缺陷信息的度量是软件度量的一部分,缺陷信息的检测与提取是对项目开发与 应用过程中产生的缺陷数据进行采集和量化,将分散的缺陷数据统一管理,使其 有序而清晰,同时通过采用一系列算法对数据进行处理,分析缺陷密度和趋势, 用以指导产品开发并提高产品可靠度。一些学者针对缺陷预测问题进行了相应的 研究,但他们在特征选择后,仅使用随机采样方法处理不平衡数据,随机复制有 缺陷样本,易导致模型的过度拟合问题。因此本文将两种算法结合,对缺陷类进 行分析后再合成新缺陷样本,以更加有效提升模型的数据质量。
常见的检测方法包括静态分析和动态监测方法。静态分析和动态测试是软件 测试过程中先后开展的两个阶段,是发现软件缺陷的主要手段。静态测试的自动 化程度比较高,耗时较短;而动态测试的自动化程度相对较低,人工介入程度较 高,耗时很长,同时大部分高价值的软件缺陷是通过动态测试发现和确认的。动 态监测工具扫描速度不能定位到造成漏洞的具体代码,且漏报率高。静态分析工 具可以找到特定的代码,但误报率高。他们都各自有局限性。在实际应用中可能 会出现各种各样的问题,比如在测试过程中就出现过分析结果错误过多,对软件 切分后,分析出的缺陷结果过少等问题。改进后的聚类分析和决策树算法,将两 种方法相融合,形成软件的谱系结构,根据软件的演化过程,可以更加准确的预 测软件缺陷分布。
发明内容
发明目的:本发明的目的是提供一种基于聚类分析和决策树算法的软件缺陷 预测方法,从而提高软件预测准确性,降低软件修复成本。
技术方案:本发明所述的一种基于聚类分析和决策树算法的软件缺陷预测方 法,包括以下步骤:
(1)用网络爬虫技术对预测所需的开源网站的软件信息进行爬取;所用到的 数据是来自于开源网站,如:GitHub网站,在开源网站上获取软件代码信息和此 软件代码本版本的模块修改信息,需要对信息进行汇总生成数据表;
(2)利用新度量元对大量样本数据进行分析,最终生成execl数据表格;使 用步骤(2)中所述的两大类新型度量元,能够对不同语言的软件进行全面分析。
(3)使用聚类分析技术,通过发掘数据样本内部的簇结构,把样本的多种特 性进行定量表示,并且采用特定指标对样本进行具体的刻画,找出样本之间的相 似性;最后根据数据的内在相似性将数据划分成多个类别形成家族簇;
根据步骤(3)中所述,引入聚类分析算法,该算法的可解释性比较强,主要 需要调整的参数仅仅是簇数K。K-Means聚类算法的主要过程是:首先给定N条 数据样本,通过人工确定原始数据集的簇类别个数K,作为最初的类中心。其次, 将这些样本分到K个簇中,计算每个样本到这K个中心的距离,不断重复计算新 的类中心,直至类中心不再变化。同一簇内的数据样本之间的相似性最大,而簇 之间的数据样本相似性最小。
即:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏科技大学,未经江苏科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111382959.2/2.html,转载请声明来源钻瓜专利网。