[发明专利]一种基于异质信息网络的重复缺陷报告检测方法有效
申请号: | 202010413134.1 | 申请日: | 2020-05-15 |
公开(公告)号: | CN111737107B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 肖冠平;郑征;杜晓婷 | 申请(专利权)人: | 南京航空航天大学;北京航空航天大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06F40/194;G06K9/62;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息网络 重复 缺陷 报告 检测 方法 | ||
本发明公开了一种基于异质信息网络的重复缺陷报告检测方法,包括以下步骤:(1)缺陷报告异质信息网络建立;(2)缺陷报告异质信息网络表示学习;(3)缺陷报告文本语义表示学习;(4)缺陷报告组识别;(5)重复和非重复缺陷报告对生成;(6)训练、验证和测试数据生成;(7)重复缺陷报告检测模型建立;(8)重复缺陷报告检测模型训练;(9)重复缺陷报告检测。本发明通过建立缺陷报告异质信息网络,利用网络表示学习方法对网络中缺陷报告之间隐含的语义关系进行学习,进而构建重复缺陷报告检测模型,与单独使用缺陷报告文本信息的信息检索方法相比,本发明提高了重复缺陷报告的检测准确率。
技术领域
本发明属于软件工程中重复缺陷报告自动检测技术领域,具体涉及一种基于异质信息网络的重复缺陷报告检测方法。
背景技术
缺陷追踪系统,例如Bugzilla和Jira,不可避免地会出现重复缺陷报告问题。不同用户可能会报告相同失效现象的缺陷,导致开发者重复讨论和识别这些相同的缺陷,带来不必要的维护代价。为了检测重复缺陷报告,传统方法依赖基于信息检索方法(information retrieval,IR)计算的文本相似度,例如术语频率-逆文档频率(TF-IDF),来检测重复缺陷报告。然而,随着缺陷追踪系统加入了实时检测(just-in-time,JIT)功能,在面对加入JIT功能后的重复缺陷报告时,基于文本相似性的传统方法的有效性发生了下降。这是因为缺陷追踪系统在加入JIT功能后,当用户/开发者在缺陷报告提交页面标题框中输入文字时,该技术能够给出可能的重复缺陷报告。因此,在提交缺陷报告的第一步就减少了出现重复的可能性。
虽然JIT功能通过避免一些文本高度相似的缺陷报告,在一定程度上提高了缺陷报告的质量,但是缺陷追踪系统中仍然存在大量的重复缺陷报告。这些重复缺陷报告更多地呈现出语义关系相似性,而不是文本相似性。因而基于文本相似性技术的传统信息检索方法难以检测这些重复缺陷报告。另一方面,当前的JIT功能仅利用缺陷报告的标题文本来检测重复缺陷报告,而不考虑缺陷报告中与所报告缺陷有关的丰富的异质属性信息,例如产品、组件、版本、严重性和修复优先级。因此,即使加入了JIT功能,缺陷追踪系统中仍然存在大量的重复缺陷报告。为了弥补传统重复缺陷报告检测方法的不足,本发明提出了一种基于异质信息网络的重复缺陷报告检测方法。
发明内容
发明目的:本发明提出一种基于异质信息网络的重复缺陷报告检测方法,可以充分利用缺陷报告中异质属性之间不同的关系类型,提高重复缺陷报告的检测准确率。
技术方案:本发明提出一种基于异质信息网络的重复缺陷报告检测方法,具体包括以下步骤:
(1)从缺陷报告文件中提取结构化的异质属性当作节点,根据异质属性节点之间的关系构建缺陷报告异质信息网络;
(2)对建立的缺陷报告异质信息网络进行网络表示学习,得到每个属性节点的向量表示;
(3)从缺陷报告文件中提取文本信息并进行预处理,然后使用大量的无标签的缺陷报告文本信息训练缺陷报告文本语义模型,得到缺陷报告文本中每个单词的向量表示;
(4)从缺陷仓库中识别缺陷报告组,同一个缺陷报告组中的缺陷报告描述相同的失效现象;
(5)从步骤(4)中识别的缺陷报告组中生成重复和非重复缺陷报告对数据;并将该数据划分成训练、验证和测试数据;
(6)将步骤(2)、(3)中的得到的异质属性节点向量和文本单词向量分别用于表示缺陷报告的结构化特征和非结构化特征,用于构建重复缺陷报告检测模型;
(7)使用步骤(5)中得到的训练和验证数据对步骤(6)建立的重复缺陷报告检测模型进行训练;
(8)使用步骤(7)中训练得到的重复缺陷报告检测模型对测试数据进行自动检测,得到重复缺陷报告的检测结果。
进一步地,所述步骤(1)包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学;北京航空航天大学,未经南京航空航天大学;北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010413134.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:作品排序方法、装置和存储介质
- 下一篇:作用于输送带上的电路板翻转设备