[发明专利]一种面向多源数据的软件缺陷表示学习方法有效

专利信息
申请号: 201710973976.0 申请日: 2017-10-18
公开(公告)号: CN107832781B 公开(公告)日: 2021-09-14
发明(设计)人: 李斌;周澄;孙小兵 申请(专利权)人: 扬州大学
主分类号: G06K9/62 分类号: G06K9/62;G06K9/72
代理公司: 南京中新达专利代理有限公司 32226 代理人: 孙鸥;朱杰
地址: 225009 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种面向多源数据的软件缺陷表示学习方法。本发明对多源数据处理并形成缺陷数据集,从中选取训练集、测试集,选用word2vec对缺陷数据集进行词向量学习后经过聚类得到相似词及相似度并作为命名实体识别技术的特征输入,经过领域命名实体识别,选择出现最多的为关键命名实体,采用实体共现分析技术对关键命名实体进行共现分析,缺陷描述由词的组合转换为共现实体对和分布实体的集合,实现软件缺陷表示,最终将缺陷描述表示成一个特征向量。本发明克服了没有就软件缺陷本身的结构特征进行分析的缺陷。本发明利用词向量技术处理文本,结合多源数据,提取软件缺陷命名实体,分析共现实体对,从知识的角度对软件缺陷进行表示。
搜索关键词: 一种 面向 数据 软件 缺陷 表示 学习方法
【主权项】:
一种面向多源数据的软件缺陷表示学习方法,其特征在于如下步骤:(1)缺陷数据准备;收集缺陷库中的数据,提取缺陷报告中的标题、描述、评论;收集问答网站中与缺陷相关的数据,提取问题、答案、评论、标签,收集在线词典、其他软件专业源中与缺陷相关的专业数据,包括wikipedia、官方API、GitHub;对上述三种来源的数据进行自然语言处理,如分词、词根还原、去掉停用词等,形成缺陷数据集;(2)命名实体抽取;从缺陷数据中选取一定量缺陷报告作为待标注集训练命名实体识别模型;定义软件缺陷领域的16种实体类型,分别为core、GUI、Network、I/O、Driver、File System、Hardware、Language、API、Standard、Platform、Framework、Defect test、Mobile、common adjective、commom verb,对待标注集进行实体标记形成专业语料库,并随机分为训练集和测试集;对缺陷数据集中所有数据进行词向量训练、聚类,给出相似词及相似度并提取特征,选用命名实体识别模型对训练集进行训练;在选定的测试集上进行交叉验证得到软件缺陷实体标注器,对缺陷数据集进行实体抽取;(3)命名实体共现;经过领域命名实体识别,选择出现最多的为关键命名实体,分析命名实体联系的紧密程度;计算命名实体对的共现频度、相对距离、共文档率,综合三个数值形成共现值,根据共现值进行排序,给定阀值选取阀值之上的实体对作为共现实体对,通过相似词对共现实体对进行扩展得到共现实体对集;(4)软件缺陷表示;对软件缺陷描述进行实体识别,对识别出的实体进行TF‑IDF即词频‑逆文档频率加权平均计算,去除重复实体,抽取共现实体对,缺陷描述由词的组合转换为共现实体对和分布实体的集合;共现实体对的特征向量表示由构成该实体对的实体对应的词向量合并而成,TF‑IDF值为构成该实体对的实体TF‑IDF值平均值;综合实体的向量和TF‑IDF值计算该实体的本地向量,对缺陷描述中所有实体的本地向量进行求和平均计算,最终将缺陷描述表示成一个特征向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710973976.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top