[发明专利]一种基于迁移学习的软件缺陷预测方法有效
申请号: | 201810101265.9 | 申请日: | 2018-02-01 |
公开(公告)号: | CN108446711B | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 张洋洋;荆晓远;吴飞;孙莹 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F11/36 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱桢荣 |
地址: | 210023 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 软件 缺陷 预测 方法 | ||
本发明公开了一种基于迁移学习的软件缺陷预测方法,该方法利用降维迁移学习的思想,综合考虑不同项目数据样本之间概率分布以及条件概率分布,在源项目和目标项目之间建立一个新的特征表示,在一个新的空间中最小化二者之间的差异,训练出一个新的分类器,进而实现迁移学习。算法首先采用了一种不同分布之间的距离度量方式,最大均方差异来量化源数据和目标数据之间的分布差异和条件分布差异,通过最小化这种度量来获得一个模型,通过这个模型映射过后的训练数据和测试数据几乎具有相同的概率分布和条件概率分布;然后就可以采用传统的机器学习算法对测试数据进行分类。
技术领域
本发明涉及软件工程技术领域,特别是一种基于迁移学习的软件缺陷预测方法。
背景技术
在过去30年里,软件缺陷预测逐步变为了一个意义重大的研究方向,致力于估计一个软件系统西立面到底有多少的保留缺陷。软件缺陷预测能够在系统开发初期,及时准确的预测软件模块是否包含缺陷,合理分配测试资源,针对性的对缺陷模块进行分析以提高产品质量。近年来,随着统计学习和机器学习技术的发展及其出色的预测性能,基于统计学习方法和机器学习方法的软件缺陷预测方法逐渐被研究者采用,并且成为主流的缺陷预测技术。
然而这些分类技术通常都会面临一个问题:当需要对新的项目进行缺陷预测的时候,所拥有的的训练样本过少,难以训练正确的模型。另一方面,一类项目通常含有大量的相似项目,这些相似项目训练的软件缺陷预测模型又不能直接用来预测。假设我们已经训练了大量的C++编写的项目的缺陷分类器,而目前又有一个新的Java项目,通常的做法是在当前项目下利用有限的样本标记重新训练分类器,但是这种方式忽略了项目之间的相关性,尽管项目的语言不同,其内部的程序设计架构和算法机理一样,因此项目之间有很强的相关性,如果利用这种相关性进行迁移训练,将会大大缩小模型所需的样本数。
跨公司软件缺陷预测问题不同于传统的及其学习问题,它的训练数据和测试数据属于不同的分布。为了解决这个问题,Turhan等使用一种最近邻滤波器自从源数据中选择与测试数据相似的数据作为训练数据。这种方法的缺点是:样本选择过程中丢弃掉的不相似数据也会导致其中所包含的的有用信息被丢弃掉。Zimmermann等使用决策树帮助项目管理者进行跨工程预测前对精确度,召回率和准确度进行估计。但是,从已有的跨工程预测性能来看,这种方法不能够产生较好的预测结果。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于迁移学习的软件缺陷预测方法,本发明方法充分考虑源数据和目标数据之间的分布差异和条件分布差异,度量并最小化它们后采用传统及其学习分类,相比较其他方法取得了更好的缺陷预测准确率。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于迁移学习的软件缺陷预测方法,包括以下步骤:
步骤1、使用主成分分析法PCA做数据重构,得到最优的低维特征表示Z;
步骤2、计算步骤1中低维特征表示Z中训练数据和测试数据之间的均值之差,通过最小化目标数据和源数据之间的概率分布距离以及条件概率分布距离训练得到一个适配矩阵A;
步骤3、将目标数据和源数据都通过适配矩阵A进行映射,映射过后的特征空间上训练数据和测试数据具有相同的特征分布;
步骤4、在步骤3映射过后得到的特征空间上进行机器学习,对测试数据进行分类预测。
作为本发明所述的一种基于迁移学习的软件缺陷预测方法进一步优化方案,步骤1具体如下:使用作为输入数据的矩阵,数据集X包括测试数据和训练数据,xi表示训练数据第i个样本,1≤i≤n,表示a×d实数空间,a是测试数据和训练数据的总数量,d是每个样本的维度,代表中心矩阵,a=n+m且Q表示大小为a×a的全1矩阵,n表示训练数据数量,m表示测试数据数量,I为大小是a×a的单位矩阵;PCA学习的目标就是找到一个适配矩阵以最大化以下问题;表示d×k的实数空间,k是一个小于a的参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810101265.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:室内平面图快速重建方法及重建系统
- 下一篇:ODN网智能规划方法、装置及系统