[发明专利]一种基于迁移学习的软件缺陷预测方法有效
申请号: | 201810101265.9 | 申请日: | 2018-02-01 |
公开(公告)号: | CN108446711B | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 张洋洋;荆晓远;吴飞;孙莹 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F11/36 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱桢荣 |
地址: | 210023 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 软件 缺陷 预测 方法 | ||
1.一种基于迁移学习的软件缺陷预测方法,其特征在于,包括以下步骤:
步骤1、使用主成分分析法PCA做数据重构,得到最优的低维特征表示Z;
步骤2、计算步骤1中低维特征表示Z中训练数据和测试数据之间的均值之差,通过最小化目标数据和源数据之间的概率分布距离以及条件概率分布距离训练得到一个适配矩阵A;
步骤3、将目标数据和源数据都通过适配矩阵A进行映射,映射过后的特征空间上训练数据和测试数据具有相同的特征分布;
步骤4、在步骤3映射过后得到的特征空间上进行机器学习,对测试数据进行分类预测;
步骤1具体如下:使用作为输入数据的矩阵,数据集X包括测试数据和训练数据,xi表示训练数据第i个样本,1≤i≤n,表示a×d实数空间,a是测试数据和训练数据的总数量,d是每个样本的维度,代表中心矩阵,a=n+m且Q表示大小为a×a的全1矩阵,n表示训练数据数量,m表示测试数据数量,I为大小是a×a的单位矩阵;PCA学习的目标就是找到一个适配矩阵以最大化以下问题;表示d×k的实数空间,k是一个小于a的参数;
tr(·)表示矩阵的迹,上标T表示转置,XHXTA=AΦ,表示k×k实数空间;其中,φ1,...,φk是前k个最大的特征值,Φ就是由φ1,...,φk作为对角线元素所构造的矩阵,除对角线外其他元素为0;然后得到最优的低维特征表示Z:Z=[z1,...,za]=ATX;
步骤2中通过最小化目标数据和源数据之间的概率分布距离以及条件概率分布距离训练得到一个适配矩阵;具体如下:
2.1)最小化目标数据和源数据之间的概率分布距离定义为:
xj表示训练数据第j个样本,M0就是MMD矩阵,并且通过下列公式来计算:
(M0)ij表示M0矩阵在第i行第j列的元素,L表示训练数据,V表示测试数据,ti,tj分别表示测试数据中第i和第j个样本;
2.2)最小化目标数据和源数据之间的条件概率分布距离;
通过修改MMD来度量两种条件分布之间的距离:
其中,n(c)表示训练数据中类别为c的样本个数,L(c)表示在训练数据中属于类别c的所有样本点,V(c)表示在测试数据属于类别c的所有样本点,vj表示测试数据中第j个样本,m(c)表示测试数据中类别为c的样本个数;因此改进的MMD矩阵Mc通过下列公式来计算:
(Mc)ij表示矩阵Mc在第i行第j列的元素;
2.3)将最小化目标数据和源数据之间的概率分布距离以及条件概率分布距离的目标任务整合起来,最终的到总的优化目标:
其中,λ是一个正则化参数,C代表输入数据中所有的类别数,表示矩阵A的F范数,对于非线性问题,考虑核映射:ψ:x→ψ(x),ψ表示核函数,x表示自变量,ψ(x)表示对自变量x的一个映射,核矩阵表示大小为a×a的实数空间;上述优化问题转化为:
其中,K代表核映射矩阵;从而最终得到适配矩阵A。
2.根据权利要求1所述的一种基于迁移学习的软件缺陷预测方法,其特征在于,步骤2中采用最大平均差异MMD作为距离度量方法来计算训练数据和测试数据之间的均值之差。
3.根据权利要求1所述的一种基于迁移学习的软件缺陷预测方法,其特征在于,步骤1中Z是一种新的特征表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810101265.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:室内平面图快速重建方法及重建系统
- 下一篇:ODN网智能规划方法、装置及系统