[发明专利]一种基于知识图谱向量化推理通用软件缺陷建模方法有效
申请号: | 201910341308.5 | 申请日: | 2019-04-25 |
公开(公告)号: | CN110119355B | 公开(公告)日: | 2022-10-28 |
发明(设计)人: | 李晓红;宫喜 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开了一种基于知识图谱向量化推理通用软件缺陷模型建立方法,步骤1、数据获取与预处理,具体操作为:从数据源获得所有关于缺陷的数据,该缺陷数据至少包括缺陷ID、缺陷描述、不同缺陷之间的关系以及缺陷造成的结果,对不同缺陷之间的关系和描述信息进行预处理;步骤2、学习基于描述的表示,构建基于描述的表示h |
||
搜索关键词: | 一种 基于 知识 图谱 量化 推理 通用 软件 缺陷 建模 方法 | ||
【主权项】:
1.一种基于知识图谱向量化推理通用软件缺陷建模方法,其特征在于,该方法包括以下流程:步骤1、数据获取与预处理,具体操作为:从数据源获得所有关于缺陷的数据,该缺陷数据至少包括缺陷ID、缺陷描述、不同缺陷之间的关系以及缺陷造成的结果,对不同缺陷之间的关系和描述信息进行预处理;步骤2、学习基于描述的表示,具体操作为:通过大量的缺陷数据获得向量化模型,创建lookup字典包含所有缺陷的单词的向量化表示,构成了单词层次上的向量化,描述每一个句子的语义,获得句子层面的向量化,即对于具有n个单词的句子的向量化表示通过取n个单词的表示向量的平均值,从而构建基于描述的表示Ed,Ed是指实体的文本表示,表达式为:Ed=||hd+r‑td||,其中,hd、td分别表示头实体和尾实体的文本表示;步骤3、学习基于结构的表示,具体操作为:针对一个给定的缺陷实体三元组(h,r,t)∈T,其中h,t∈V,h,t表示头部实体和尾部实体,V表示头部实体和尾部实体的集合;r∈R,r表示关系,R表示关系的集合;T表示所有三元组的集合,构建基于描述的表示Es,Es是指实体的结构表示,表达式为Es=||hs+r‑ts||,而hs和ts分别表示头实体与尾实体的结构表示;步骤4、通过基于结构的表示Es和基于描述的表示Ed,构建最终的软件缺陷模型TransCat模型:步骤5、进行TransCat模型优化处理,优化目标是最小化的基于奖励的损失函数,最小化的基于奖励的损失函数的表达式如下:其中,γ表示奖励超参数,E(h,r,t)表示能源函数,T′表示T的负样本集合,即h′+r≠t′,h′和t′同样表示头部实体和尾部实体,并且T'的表达式如下:T'={(h',r,t)|h'∈E}∪{(h,r,t')|t'∈E} (5)利用Adam优化算法去优化TransCat模型的损失函数,具体的优化算法过程如下:(1)首先对关系的集合R中的每一个关系r,进行uniform函数转换确定其均匀分布的均匀标准在[‑1,1]之间,本模型中维度k=36;(2)对关系所表示的向量进行归一化处理||r||是向量的模运算;(3)对于实体集E中的每一个实体e,对其进行uniform函数转换确定其均匀分布的均匀标准在[‑1,1]之间;(4)对实体集合中的每一个集合e进行如下操作:(5)对e进行归一化(6)让实体e所表示的向量与基于描述所表示的向量连接形成维度加倍的向量;(7)从训练集中的三元组初始化一个mini batchTbatch←Φ,并与负样本的三元组做并操作Tbatch←Tbatch∪{((h,r,t),(h',r,t'))},其中Φ表示训练集合;(8)通过minibatch训练更新参数,进而提高向量化的表示;(9)不断修改损失函数的值;(10)最终得到TransCat模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910341308.5/,转载请声明来源钻瓜专利网。