[发明专利]一种基于KL散度的多源软件缺陷预测方法在审
申请号: | 201610979285.7 | 申请日: | 2016-11-08 |
公开(公告)号: | CN106569954A | 公开(公告)日: | 2017-04-19 |
发明(设计)人: | 燕雪峰;杨杰;周勇;范亚琼;张晓策;薛参观 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36 |
代理公司: | 南京经纬专利商标代理有限公司32200 | 代理人: | 熊玉玮 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于KL散度的多源软件缺陷预测方法,属于软件工程应用的技术领域。本发明使用KL散度作为TrAdaBoost算法迭代过程中源数据集与目标数据集之间分布相似性的度量标准,在将不同源数据集分别迁移至目标训练集预测时所获得的预测准确度作为不同源数据集权重更新主要依据的同时,将分布相似性作为不同源数据集权重更新的辅助依据,将迭代训练得到的预测模型应用于多源迁移学习的软件缺陷预测,解决了原有迁移过程中因未考虑分布相似性差异而导致迁移效果不理想的技术问题,较好的利用了数据集之间的分布相似性特征,将其作为权重更新时的辅助依据,能够在一定程度上提高多源迁移学习软件缺陷预测的效果。 | ||
搜索关键词: | 一种 基于 kl 软件 缺陷 预测 方法 | ||
【主权项】:
一种基于KL散度的多源软件缺陷预测方法,其特征在于,包括以下两部分:第一部分,多次重抽样训练弱学习器集合:对多个源数据集分别进行重抽样得到多个源数据集的抽样集,对有标签目标数据集进行重抽样得到目标数据抽样集,选择对应于各源数据集的弱学习器,根据各源数据集的抽样集预测目标数据抽样集以得到各源数据集抽样集的预测误差,将各源数据集抽样集的预测误差作为对应源数据集的主要更新依据,以各源数据抽样集与目标数据集的KL散度作为对应源数据集的辅助更新依据,对各源数据集的权重进行更新,所述目标数据集包含有标签目标数据集和无标签目标数据集,依据各源数据集的权重对各源数据集抽样集的预测误差进行加权得出目标数据抽样集的加权预测值,对比目标数据抽样集的真实值后确定本次重抽样过程所得的目标数据抽样集加权预测误差,依据目标数据抽样集加权预测误差更新目标数据抽样集中所有实例的重抽样权重,依据目标数据抽样集在各源数据集的预测误差更新各源数据集中所有实例的重抽样权重;第二部分:依据每次重抽样过程所得的目标数据抽样集加权预测误差组合弱学习器集合得到强学习器,根据各源数据集预测无标签目标数据集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610979285.7/,转载请声明来源钻瓜专利网。