[发明专利]一种面向跨公司软件缺陷预测的数据变换方法在审

申请号：	202010132562.7	申请日：	2020-02-29
公开（公告）号：	CN111367801A	公开（公告）日：	2020-07-03
发明（设计）人：	王兴起;赵静茹;邵艳利	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F11/36	分类号：	G06F11/36;G06K9/62
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	杨舟涛
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向公司软件缺陷预测数据变换方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向跨公司软件缺陷预测的数据变换方法，其特征在于包含如下步骤：

步骤1、归一化源项目和目标项目数据，并分别提取每个度量元的多粒度属性特征向量；

步骤2、分别对源项目和目标项目的多粒度属性特征向量进行聚类，并分别对每个簇进行代表属性提取；

步骤3、对代表属性进行一对一属性匹配，并对归一化后的源项目数据和目标项目数据按照聚类序号和匹配顺序重新排列；

步骤4、筛性与目标项目相似的源项目数据，并统计筛选的源项目频次，按照频次对源项目样本进行权重设置。

2.根据权利要求1所述的面向跨公司软件缺陷预测的数据变换方法，其特征在于步骤1所述的归一化数据并提取属性特征向量的具体实施如下：

首先对于源项目和目标项目中的每一个属性列中的每一个数据执行x'＝(x-X_min)/(X_max-X_min)进行数据归一化处理，同时将归一化后的属性列将其按照归一化后的数值从小到大排序后等分成5份，分别提取每一份中的属性特征向量，再将其组合成一个25维的多粒度属性特征向量作为原始属性的代表向量，x'表示归一化后的数值，x表示原始数据，X_min表示该属性列中的最小值，X_max表示该属性列中的最大值。

3.根据权利要求1所述的面向跨公司软件缺陷预测的数据变换方法，其特征在于步骤2所述的对多粒度属性特征向量聚类并进行代表属性提取，具体实施如下：

对于源项目s的m个属性，将相关距离作为属性间聚类的评价指标，使用K-means聚类方法，将源项目的m个属性分为K个簇，Km，使得簇内的属性集具有强相关性，但是与其他簇的属性间相关性不大；使用PCA分别对每个簇提取主成分作为该属性类的代表向量参与属性匹配操作；为了保证属性匹配操作的顺利进行，对上述属性的去冗余操作中，将源项目属性和目标项目属性聚类簇数设为相同，以方便下一步的属性一对一匹配操作。

4.根据权利要求1所述的面向跨公司软件缺陷预测的数据变换方法，其特征在于步骤3所述的代表属性的匹配及对归一化后的源项目数据和目标项目数据进行数据变换，具体如下：

属性匹配操作采用一对一匹配模式；即对于源项目中的每一个属性，分别计算该属性与目标项目的K个代表属性之间的相关距离作为属性间相似度的度量标准；源项目属性与目标项目属性之间的相关性使用一个K*K维的矩阵H来表示，其中H_ij表示源项目第i个属性与目标项目第j个属性之间的相关度量，遍历矩阵H依次选取矩阵中最小的数值的横纵坐标作为源项目属性特征向量和目标项目属性特征的匹配对，直至选出K个匹配对，匹配完成；接着对归一化后的源项目和目标项目数据按照聚类时的属性选择和匹配对进行数据重新分布，使源项目和目标项目数据分布尽可能地一致。

5.根据权利要求1所述的面向跨公司软件缺陷预测的数据变换方法，其特征在于，步骤4所述的源项目样本权重设置具体过程如下：

对于目标项目中的每一个样本实例，使用欧式距离找到源项目中与该样本最相似的前N个源项目样本作为它的待选样本；对于一个目标项目样本个数为n的数据集来说，会选出n*N个源项目样本与之对应，在n*N个样本中，会有一部分样本会被重复选择多次，而被重复挑选多次的样本更大程度上表示与源项目样本更为相似，应加大其在训练预测模型时的权重，因此对于被目标项目挑选出来的n*N个源项目样本，分别统计其被选中的频次，将该频次作为该样本构造预测模型时的权重信息；使用设置权重的源项目样本训练缺陷预测模型，预测目标项目样本的缺陷情况。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010132562.7/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F11-00 错误检测；错误校正；监控
G06F11-07 .响应错误的产生，例如，容错
G06F11-22 .在准备运算或者在空闲时间期间内，通过测试作故障硬件的检测或定位
G06F11-28 .借助于检验标准程序或通过处理作错误检测、错误校正或监控
G06F11-30 .监控
G06F11-36 .通过软件的测试或调试防止错误

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向跨公司软件缺陷预测的数据变换方法在审

专利文献下载