[发明专利]一种面向多源数据的软件缺陷表示学习方法有效
申请号: | 201710973976.0 | 申请日: | 2017-10-18 |
公开(公告)号: | CN107832781B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 李斌;周澄;孙小兵 | 申请(专利权)人: | 扬州大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/72 |
代理公司: | 南京中新达专利代理有限公司 32226 | 代理人: | 孙鸥;朱杰 |
地址: | 225009 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种面向多源数据的软件缺陷表示学习方法。本发明对多源数据处理并形成缺陷数据集,从中选取训练集、测试集,选用word2vec对缺陷数据集进行词向量学习后经过聚类得到相似词及相似度并作为命名实体识别技术的特征输入,经过领域命名实体识别,选择出现最多的为关键命名实体,采用实体共现分析技术对关键命名实体进行共现分析,缺陷描述由词的组合转换为共现实体对和分布实体的集合,实现软件缺陷表示,最终将缺陷描述表示成一个特征向量。本发明克服了没有就软件缺陷本身的结构特征进行分析的缺陷。本发明利用词向量技术处理文本,结合多源数据,提取软件缺陷命名实体,分析共现实体对,从知识的角度对软件缺陷进行表示。 | ||
搜索关键词: | 一种 面向 数据 软件 缺陷 表示 学习方法 | ||
【主权项】:
一种面向多源数据的软件缺陷表示学习方法,其特征在于如下步骤:(1)缺陷数据准备;收集缺陷库中的数据,提取缺陷报告中的标题、描述、评论;收集问答网站中与缺陷相关的数据,提取问题、答案、评论、标签,收集在线词典、其他软件专业源中与缺陷相关的专业数据,包括wikipedia、官方API、GitHub;对上述三种来源的数据进行自然语言处理,如分词、词根还原、去掉停用词等,形成缺陷数据集;(2)命名实体抽取;从缺陷数据中选取一定量缺陷报告作为待标注集训练命名实体识别模型;定义软件缺陷领域的16种实体类型,分别为core、GUI、Network、I/O、Driver、File System、Hardware、Language、API、Standard、Platform、Framework、Defect test、Mobile、common adjective、commom verb,对待标注集进行实体标记形成专业语料库,并随机分为训练集和测试集;对缺陷数据集中所有数据进行词向量训练、聚类,给出相似词及相似度并提取特征,选用命名实体识别模型对训练集进行训练;在选定的测试集上进行交叉验证得到软件缺陷实体标注器,对缺陷数据集进行实体抽取;(3)命名实体共现;经过领域命名实体识别,选择出现最多的为关键命名实体,分析命名实体联系的紧密程度;计算命名实体对的共现频度、相对距离、共文档率,综合三个数值形成共现值,根据共现值进行排序,给定阀值选取阀值之上的实体对作为共现实体对,通过相似词对共现实体对进行扩展得到共现实体对集;(4)软件缺陷表示;对软件缺陷描述进行实体识别,对识别出的实体进行TF‑IDF即词频‑逆文档频率加权平均计算,去除重复实体,抽取共现实体对,缺陷描述由词的组合转换为共现实体对和分布实体的集合;共现实体对的特征向量表示由构成该实体对的实体对应的词向量合并而成,TF‑IDF值为构成该实体对的实体TF‑IDF值平均值;综合实体的向量和TF‑IDF值计算该实体的本地向量,对缺陷描述中所有实体的本地向量进行求和平均计算,最终将缺陷描述表示成一个特征向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710973976.0/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置