[发明专利]一种基于多模型选择的软件缺陷预测方法、设备及存储介质在审
申请号: | 202210137455.2 | 申请日: | 2022-02-15 |
公开(公告)号: | CN114546847A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 邵羽;詹士潇;曾磊;匡立中;张帅 | 申请(专利权)人: | 杭州趣链科技有限公司 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06K9/62 |
代理公司: | 杭州奥创知识产权代理有限公司 33272 | 代理人: | 王佳健 |
地址: | 310051 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 选择 软件 缺陷 预测 方法 设备 存储 介质 | ||
1.一种基于多模型选择的软件缺陷预测方法,其特征在于:包括以下步骤:
步骤1)使用第一数据收集机制收集新到达的软件模块流数据,增量训练随机森林模型M0;同时,使用新数据更新混淆矩阵中的统计量以及样本均值的统计量;
步骤2)将当前时刻更新得到的样本均值用于概念漂移检测机制中,得到小样本平衡数据块D1和D2;
步骤3)基于SMOTE算法,对获取的数据块D1和D2中进行过采样,分别得到类别分布平衡的数据块D1’和D2’;
步骤4)在获得的数据块D1,D2,D1’和D2’上,分别建立随机森林分类模型M1,M2,M3和M4;
步骤5)计算训练得到的流数据分类模型M0,M1,M2,M3和M4对最新软件模块流数据的G-mean性能值,基于多模型选择得到软件缺陷预测模型M;
步骤6)使用软件缺陷预测模型M对软件缺陷数据的类别进行预测。
2.权利要求1所述的一种基于多模型选择的软件缺陷预测方法,其特征在于:步骤2)中使用概念漂移检测机制ADMIN检测当前数据中是否存在概念漂移。
3.权利要求2所述的一种基于多模型选择的软件缺陷预测方法,其特征在于:所述的概念漂移检测机制ADMIN包含:警告水平和漂移水平,基于警告水平和漂移水平形成数据块D1和数据块D2。
4.权利要求3所述的一种基于多模型选择的软件缺陷预测方法,其特征在于:ADWIN通过检测当前样本均值的变化来识别软件模块流数据的稳定性;若达到警告水平,则第一数据收集机制不再收集软件模块流数据,形成数据块D1;并则创建第二数据收集机制,用于收集从警告水平之后的软件模块流数据,直到当前的数据分布环境达到漂移水平,从而形成数据块D2。
5.权利要求1所述的一种基于多模型选择的软件缺陷预测方法,其特征在于:步骤3)中,所述SMOTE算法通过生成新的小样本平衡数据块D1和D2的数据分布,从而得到类别分布平衡的数据块D1’和D2’。
6.权利要求1所述的一种基于多模型选择的软件缺陷预测方法,其特征在于:步骤4)中M3和M4是建立在平衡数据块上的流数据集成分类模型,M1和M2中的训练数据的类别分布通常是不平衡的。
7.权利要求1所述的一种基于多模型选择的软件缺陷预测方法,其特征在于:步骤5)中,基于混淆矩阵中的值计算得到G-mean性能值,基于G-mean性能值,选M0,M1,M2,M3,M4中性能最好模型M代替当前正在增量训练的流数据集成分类模型M0。
8.权利要求1所述的一种基于多模型选择的软件缺陷预测方法,其特征在于:步骤6)中,若预测结果为+1,则为缺陷类样本,若预测结果为-1,则判别为非缺陷类样本。
9.一种基于多模型选择的软件缺陷预测设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述权利要求1-8任一所述的基于多模型选择的软件缺陷预测方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-8任一所述的基于多模型选择的软件缺陷预测方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州趣链科技有限公司,未经杭州趣链科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210137455.2/1.html,转载请声明来源钻瓜专利网。