[发明专利]一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法有效

专利信息
申请号: 201810878021.1 申请日: 2018-08-03
公开(公告)号: CN109165382B 公开(公告)日: 2022-08-23
发明(设计)人: 万夕里;张杰;管昕洁;白光伟 申请(专利权)人: 南京工业大学
主分类号: G06F40/30 分类号: G06F40/30;G06F40/284;G06F40/216;G06F16/33;G06K9/62
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 朱小兵
地址: 211899 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 加权 向量 潜在 语义 分析 结合 相似 缺陷 报告 推荐 方法
【说明书】:

发明公开了一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法。本发明首先计算缺陷报告的加权词向量,得到相似度Sim1和Sim2;然后计算缺陷报告的LSI向量,得到相似度Sim3和Sim4;计算不同缺陷报告所涉及的产品和组件之间的相似度Sim5;计算要查询的缺陷报告和各候选缺陷报告之间的总相似度并进行升序排序,从候选缺陷报告中选出与要查询的缺陷报告总相似度最高的缺陷报告。本发明利用TF‑IDF方法为单个词的词向量增加权重,特别适用于短文本,表示了缺陷报告中各个词的重要程度。同时利用潜在语义索引方法计算缺陷报告的相似度。二者结合能够很好地分析缺陷报告之间的相似度,明显提高向开发者推荐相似的缺陷报告的准确性,加快软件缺陷的修复。

技术领域

本发明涉及一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,属于计算机软件工程领域。

背景技术

在软件开发和维护的过程中,为了保证软件系统的质量,开发者通常会允许用户或者测试人员提交所遇到的软件缺陷。很多开源项目都会采用缺陷追踪系统来记录用户或测试人员提交的缺陷。如果软件系统比较复杂,则用户提交的缺陷报告也会比较多,如开源项目Eclipse每天报告的缺陷高达300个。如此多的缺陷报告必然会产生大量重复的缺陷报告。为了加快缺陷的修复速度,保证系统的稳定性和安全性,同时也为了减少开发者的工作量,在大量缺陷报告中找出重复的缺陷报告就变得非常重要。

传统的方法主要采用信息检索的方法来查找相似的缺陷报告,如基于余弦相似度来计算缺陷报告的相似度。但这些方法都存在着准确度比较低的缺点,效果比较差。

词向量技术是自然语言处理中的对语言模型和特征学习的一种技术。词向量能够将高维词向量嵌入到低维的向量空间中,能够很好地表示词与词之间的关系。之前已经有工作将词向量使用到相似缺陷报告的发现中,如采用平均词向量表示缺陷报告。但由于在缺陷报告中,无论是缺陷报告的标题还是具体的描述,长度都较短,直接采用词向量不能够很好地表示缺陷报告的标题的具体描述。

TF-IDF也称为词频-逆文件频率,是信息检索中常用的技术。TF-IDF被用来表示一个词语对于文档或者是语料库的重要程度。TF-IDF的原理是词语的重要性与该词文档中出现的次数成正比,与该词在语料库中出现的次数成反比。通过使用TF-IDF作为权重,能够很好地表示在该词在报告中的重要程度。

LSI全称潜在语义索义,也称为潜在语义分析,是自然语言处理中常用的一种技术。LSI能够根据字词所在的环境分析字词的隐藏含义。其基本原理是利用奇异值分解将文档原始向量进行降维处理,所以LSI是一种基于向量空间模型的语义分析方法。LSI通过使用低维向量,有效地降低的数据的复杂程度,同时降低了数据中的噪声。

发明内容

本发明所要解决的技术问题是针对当前相似软件缺陷报告推荐的准确度比较低的情况,提出一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法。

本发明为解决上述技术问题采用以下技术方案:

本发明提出一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法,具体包括以下步骤:

步骤一、分别计算每个缺陷报告的加权词向量,然后根据所述加权词向量计算缺陷报告的标题相似度Sim1和描述相似度Sim2

步骤二、分别计算每个缺陷报告的LSI向量;然后根据所述LSI向量计算缺陷报告的标题相似度Sim3和描述相似度Sim4

步骤三、计算不同缺陷报告所涉及的产品和组件之间的相似度Sim5

步骤四、根据步骤一至步骤三所得的相似度,计算缺陷报告之间的总相似度;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工业大学,未经南京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810878021.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top