[发明专利]一种采用加权优化训练集增强自动Bug报告分配的方法在审

申请号：	201811033587.0	申请日：	2018-09-05
公开（公告）号：	CN109255029A	公开（公告）日：	2019-01-22
发明（设计）人：	魏苗苗;陈荣;李辉;郭世凯;唐文君	申请（专利权）人：	大连海事大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/332
代理公司：	大连东方专利代理有限责任公司 21212	代理人：	姜玉蓉;李洪福
地址：	116026 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	优化训练加权分配特征选择算法工作效率加权处理人力成本时间成本实例选择频度数据集训练集冗余准确率算法单词噪音分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种采用加权优化训练集增强自动Bug报告分配的方法，该方法通过对bug报告数据集进行加权处理，提高短描述中的信息频度，并结合特征选择算法与实例选择算法，同时减少噪音单词和冗余实例，得到规模更小且质量更高的训练集，提高了bug分类的准确率，节省了bug分配所需的时间成本和人力成本，提升了工作效率。

技术领域

本发明涉及数据处理分类技术领域，尤其涉及一种采用加权优化训练集增强自动Bug报告分配的方法。

背景技术

目前，一些研究者试图解决bug报告分类问题。G.C.Murphy等在文件[1]首先提出将bug指派问题转成文本分类问题来解决，即将文本分类技术应用到bug仓库中。Anvik在文件[2]等人将bug分配问题半自动化，先利用文本分类技术训练预测出多个开发者，然后将这些开发者当作候选供专家来选择。Jeong等人在文件[3]提出了tossing图的概念，通过对分类结果进行tossing图过滤来提高分类准确率。Xuan等人在文件[4]使用半监督分类方法，用一部分已有标签的bug实例来帮助标记标签未知的实例，随后将所有的实例用来训练预测。Zou等人在文件[5]首先将数据约简技术应用到分类的训练集中。上述基于bug分配的研究与改进大都忽略了数据集本身的问题。现有工作主要集中在对bug报告的原始数据和文本进行分析方面，而文本的自然语言中包含的噪声信息在很大程度上被忽略了。如果bug报告的自然语言描述中含有很多噪音，则无论对分类算法如何进行优化，分类效果也不会特别好。

发明内容

根据现有技术存在的问题，本发明公开了一种采用加权优化训练集增强自动Bug报告分配的方法，具体采用如下步骤：

S1：从Bug仓库中获取原始训练集数据，对原始训练集进行预处理：从原始训练集中过滤掉低效开发者处理的bug报告，对筛选出的数据集中的bug报告分别提取短描述及第一个长描述作为该bug报告的描述信息，对每个bug报告的描述信息进行分词去停用词处理，再将bug报告的短描述和长描述分别处理成文本矩阵S_BR和文本矩阵L_BR；

S2：对预处理后的Bug报告进行加权处理：即对短描述生成的文本矩阵S_BR乘以一个权重值η再与长描述生成的文本矩阵L_BR相加，将加权处理后的文本矩阵作为训练集文本矩阵W_BR；

S3：对训练集文本矩阵W_BR进行约简处理：首先用4种特征选择算法和4种实例选择算法分别对训练集文本矩阵W_BR进行维度和行数的约简，从特征选择和实例选择算法中分别挑选最佳约简算法，将两个最佳约简算法进行组合对训练集文本矩阵W_BR进行约简获得最终训练集文本；

S4：对最终训练集文本采用朴素贝叶斯算法进行学习训练获得分类模型；

S5：将新bug报告输入分类模型内进行分类处理输出该bug报告的指派开发者。

进一步的，所述S2中对预处理后的Bug报告进行加权处理采用如下算法：

上式中η表示对短描述生成的文本矩阵的权重值，m表示训练集中的bug报告数目，n表示训练集中不同单词的数目。

由于采用了上述技术方案，本发明提供的一种采用加权优化训练集增强自动Bug报告分配的方法，通过对bug报告数据集进行加权处理，提高短描述中的信息频度，并结合特征选择算法与实例选择算法，同时减少噪音单词和冗余实例，得到规模更小且质量更高的训练集，提高了bug分类的准确率，节省了bug分配所需的时间成本和人力成本，提升了工作效率。

附图说明

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连海事大学，未经大连海事大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811033587.0/2.html，转载请声明来源钻瓜专利网。

上一篇：基于教学评价数据可信度的教学质量综合评价方法
下一篇：一种基于大数据的招商决策平台

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种采用加权优化训练集增强自动Bug报告分配的方法在审

专利文献下载