[发明专利]基于改进的支持向量机的软件缺陷优先级预测方法有效
申请号: | 201210057888.3 | 申请日: | 2012-03-07 |
公开(公告)号: | CN102637143A | 公开(公告)日: | 2012-08-15 |
发明(设计)人: | 张卫丰;常成成;周国强;张迎周;周国富;王慕妮;许碧欢;陆柳敏;顾赛赛 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 支持 向量 软件 缺陷 优先级 预测 方法 | ||
1.一种基于改进的支持向量机的软件缺陷优先级预测方法,其特征在于该方法分为两大部分:
一、数据分析
步骤11)收集错误报告数据集;
步骤12)对错误报告进行分析,提取其中的产品,组件,版本,平台,操作系统,缺陷状态,错误解决状况,优先级,严重程度,主题,详细描述的信息;
步骤13)把主题和详细描述中的停用词这样无意义的单词去掉,把所有单词转换成其基本形式;
步骤14)对每个样本标记上优先级,在这里,优先级分为五个等级:P1,P2,P3,P4,P5,其中P1的优先级最高,依次递减;
二、变换支持向量机的参数,针对同一训练集训练出不同的分类器,然后把这些分类器集合起来,
步骤21)先对所有样本赋以一个抽样权重,一般开始的时候权重都一样即认为均匀分布,也就是训练集如果有N个样本,每个样本的分布概率为1/N;
步骤22)调整高斯宽度σ,采用径向基函数RBF内核,其中最常用的径向基函数是高斯函数,形式为其中xc为核函数中心,σ为函数的宽度参数,共同控制了函数的径向作用范围。在训练过程中通过适当地调整可以获得适当精确的支持向量机分类器;
步骤23)如果σ大于已设定的高斯宽度值,就使用支持向量机训练弱学习机,否则,转到步骤7);
步骤24)计算弱学习机的错误率,如公式2,如果错误率大于50%,降低σ,再转到步骤3);
其中εt表示弱学习机的错误率;N表示样本个数;t表示第t个训练周期,则表示第i个样本在第t个训练周期数的权重;xi表示样本属性组成的向量,yi表示该样本的类别标签;ht(xi)表示第t轮训练得到的弱学习机;
如果εt>0.5,减少σ的值,重新利用支持向量机算法训练弱学习机;
步骤25)用得到的错误率计算弱学习机的权重,如公式3;
其中,αt表示弱学习机的权值;εt表示弱学习机的错误率。可见,弱学习机的错误率越低,所分得的权重越高;
步骤26)更新样本权值向量,如公式4,再返回步骤2);
此处的Ct表示归一化常量,而且其中,N表示样本的个数;t表示第t个训练周期,则表示第i个样本在第t个训练周期数的权重;xi表示样本属性组成的向量,yi表示该样本的类别标签;αt表示弱学习机的权重;ht(x)表示第t轮训练周期得到的弱学习机;
步骤27)把多个弱分类器进行加权和,就得到了所需的强分类器,如公式5,大体是误差越大分类器的权重就越小;
其中,t表示第t个训练周期;αt表示弱学习机的权重;x表示样本属性组成的向量;ht(x)表示第t轮训练周期得到的弱学习机;
经过以上步骤,就得到了高精确度,且各个错误不相关的分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210057888.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像形成装置
- 下一篇:密闭式液相色谱用流动相盛放装置