[发明专利]一种软件bug报告分类系统及分类方法在审
申请号: | 201811076509.9 | 申请日: | 2018-09-14 |
公开(公告)号: | CN109213865A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 郭世凯;陈荣;李辉;唐文君;魏苗苗 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 李洪福 |
地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 分类系统 软件bug 数据集 约简 测试 数据集处理 训练分类器 模糊 不确定性 处理数据 获取模块 结果分类 平衡数据 实例选择 使用数据 输出模块 输入模块 数据规模 随机采样 特征选择 样本维度 分类器 维度 算法 单词 | ||
1.一种软件bug报告分类系统,其特征在于:包括训练部分和测试部分,
所述训练部分包括:
数据集获取模块,用于获取数据集,并对获取的数据集进行数据“清洗”,通过词干化、去停用词把无意义的单词删除;
数据约简模块,用于将特征选择和实例选择相结合的方式来处理初始数据集;
不平衡数据集处理模块,用于通过用RSMOTE方法处理不平衡数据集;
所述测试部分包括:
bug报告输入模块,用于输入要进行分类的bug报告;
结果分类输出模块,用于bug报告的结果分类和输出,其中包括用Choquet模糊积分集成的多个已训练过的分类器。
2.一种采用权利要求1所述软件bug报告分类系统的分类方法,其特征在于,包括以下步骤:
S1,分类系统获取要处理的初始bug数据集,并对该数据集进行数据“清洗”,使用词干化,去停词,把无意义的单词删除;
S2,使用数据约简算法来处理数据,所述数据约简过程采用特征选择与实
例选择相结合的方式处理初始数据集,特征选择旨在减少单词维度,获得相
关单词的子集,实例选择旨在减少样本维度,获得相关bug报告的子集;
S3,获得约简后的数据集,通过约简得到的高质量数据集作为初始数据集的代表性数据集;
S4,用RSMOTE方法处理不平衡数据集,得到平衡数据集;
S5,用获得的平衡数据集训练分类器;
S6,用Choquet模糊积分来集成多个已经训练过的分类器对bug报告的结果进行分类;
S7,分类系统输出分类后的结果。
3.根据权利要求2所述的分类方法,其特征在于,所述步骤S2中为了避免单个约简算法可能会产生的偏差和偶然性,使用了四种常用的特征选择算法:OneR,IG,CHI和RF;以及四个实例选择算法:CNN,MCS,ENN和ICF。
4.根据权利要求2所述的分类方法,其特征在于,所述步骤S4中用RSMOTE方法处理不平衡数据集的具体步骤如下:
S4-1,初始化参数并计算约减之后的数据集的不平衡度;
S4-2,对于每个bug报告,使用欧氏距离去找到与其最相似的k个bug报告,并从这k个bug报告中随机选择bug报告;
S4-3,在高维空间仿真生成新的少数类bug报告;
S4-4,如果新的少数类bug报告不符合指定的约束,RSMOTE将重新生成少数类bug报告,直到新生成的少数类bug报告符合指定的约束,数据集达到平衡;
S4-5,得到平衡的数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811076509.9/1.html,转载请声明来源钻瓜专利网。