[发明专利]一种基于文本挖掘的缺陷模式确定方法及系统在审
申请号: | 201711450639.X | 申请日: | 2017-12-27 |
公开(公告)号: | CN109976993A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 吴旭;许航 | 申请(专利权)人: | 航天信息股份有限公司 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06K9/62 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 郭一斐;叶万东 |
地址: | 100195 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 缺陷描述 文本数据 缺陷模式 向量化 聚类集合 词语 聚类分析 文本挖掘 数据集 算法 词频 逆文档频率 缺陷特征 数据对应 数据依据 潜在的 聚类 | ||
本发明公开了一种基于文本挖掘的缺陷模式确定方法及系统,所述方法包括:获取多个缺陷描述文本数据;分别提取所述多个缺陷描述文本数据中每个缺陷描述文本数据的多个特征词语;利用词频逆文档频率TF‑IDF算法对每个缺陷描述文本数据的多个特征词语进行向量化处理,获取向量化数据集;对所述向量化数据集进行聚类计算,获取多个聚类集合;根据所述多个聚类集合中每个聚类集合中的向量化数据对应的特征词语,确定缺陷描述文本数据对应的缺陷模式。本发明通过TF‑IDF算法将缺陷特征词语向量化后使用K‑Means进行聚类分析,并根据聚类分析结果能够找到缺陷间潜在的相互关系,确定缺陷描述文本数据对应的缺陷模式,为缺陷模式的生成提供了客观的数据依据。
技术领域
本发明涉及计量软件测试技术领域,并且更具体地,涉及一种基于文本挖掘的缺陷模式确定方法及系统。
背景技术
软件缺陷是衡量软件质量的重要指标,缺陷的及时修复对提高用户满意度相当重要。为了有效的管理软件缺陷,通常使用缺陷跟踪系统来管理软件缺陷以及需求。当一个软件发布后,相应的缺陷跟踪系统就负责搜集程序测试人员或者终端用户提交的对软件缺陷的描述报告,软件的开发人员可以通过这些报告对软件进行维护和完善处理。
缺陷的表现形式不仅体现在功能的失效方面,还体现在其他方面。主要类型有:软件没有实现产品规格说明所要求的功能模块;软件中出现了产品规格说明指明不应该出现的错误;软件实现了产品规格说明没有提到的功能模块;软件没有实现虽然产品规格说明没有明确提及但应该实现的目标;软件难以理解,不容易使用,运行缓慢,或从测试员的角度看,最终用户会认为不好。
但是,最需要维护的是修正性缺陷,这些缺陷涉及到代码的修改,对软件的运行至关重要。因此需要对软件的缺陷进行分类,以更加准确的确定解决方案。
传统的缺陷模式,多是根据缺陷报告的结构型特征属性,如缺陷严重程度,优先级等,以及人工经验进行确定;但缺陷报告中的非结构型特征属性也包含了大量的信息,尤其是缺陷报告中的缺陷描述文本。而且使用人工方式对缺陷描述进行分析,工作量大,也很难发现缺陷相互间的关系。
发明内容
本发明提供了一种基于文本挖掘的缺陷模式确定方法及系统,以解决如何快速确定缺陷对应的缺陷模式的问题。
为了解决上述问题,根据本发明的一个方面,提供了一种基于文本挖掘的缺陷模式确定方法,其特征在于,所述方法包括:
获取多个缺陷描述文本数据;
分别提取所述多个缺陷描述文本数据中每个缺陷描述文本数据的多个特征词语;
利用词频逆文档频率TF-IDF算法对每个缺陷描述文本数据的多个特征词语进行向量化处理,获取向量化数据集;
对所述向量化数据集进行聚类计算,获取多个聚类集合;
根据所述多个聚类集合中每个聚类集合中的向量化数据对应的特征词语,确定缺陷描述文本数据对应的缺陷模式。
优选地,其中所述获取多个缺陷描述文本数据,包括:
从缺陷库中获取多个缺陷报告,并分别从每个缺陷报告中提取缺陷描述部分的文本作为缺陷描述文本数据。
优选地,其中在分别提取所述多个缺陷描述文本数据中每个缺陷描述文本数据的多个特征词语之前,还包括:
分别对所述多个缺陷描述文本数据进行处理,去除非文本以及与缺陷描述内容无关的文本。
优选地,其中所述分别提取所述多个缺陷描述文本数据中每个缺陷描述文本数据的多个特征词语,包括:
利用分词工具将每个缺陷描述文本数据中的句子分解为多个词语;
去除所述多个词语中的干扰词语,获取多个特征词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司,未经航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711450639.X/2.html,转载请声明来源钻瓜专利网。