[发明专利]基于深度神经网络的软件漏洞自动分类方法有效
申请号: | 201910068001.2 | 申请日: | 2019-01-24 |
公开(公告)号: | CN109886020B | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 何海涛;任家东;王倩;李亚洲;胡昌振 | 申请(专利权)人: | 燕山大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F21/57;G06F40/289;G06F40/216;G06F40/247;G06N3/04;G06N3/08 |
代理公司: | 11474 北京孚睿湾知识产权代理事务所(普通合伙) | 代理人: | 韩燕 |
地址: | 066000 河北省*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请提供一种基于深度神经网络的软件漏洞自动分类方法,包括:S1,对漏洞信息进行预处理后形成词集列表;S2,对样本漏洞描述信息集合使用TF‑IDF算法和IG算法对每个词的权重进行计算,获取重要特征词集列表;S3,根据重要特征词集列表生成词向量空间,把每一条漏洞描述信息表述成一个m维的向量,m是重要特征词集中特征词的数量;S4,使用DNN模型获得软件漏洞分类器;S5,新的漏洞描述信息集合进行分类。本发明基于TF‑IDF和IG算法构建深度神经网络漏洞自动分类模型,降低了高维词向量空间的维度,能够适应不断更新的软件漏洞数据集,有效地处理词向量空间的高维性和稀疏性,在准确率、召回率、精度等多维评价指标中表现出较好性能。 | ||
搜索关键词: | 软件漏洞 描述信息 神经网络 自动分类 词向量 漏洞 高维 算法 集合 预处理 列表生成 漏洞信息 模型获得 评价指标 算法构建 分类器 数据集 特征词 稀疏性 有效地 准确率 多维 权重 维度 向量 样本 分类 更新 申请 | ||
【主权项】:
1.一种基于深度神经网络的软件漏洞自动分类方法,其特征在于,具体步骤如下:/nS1,漏洞描述信息集合中包括多条漏洞描述信息,对漏洞信息进行预处理后形成词集列表,预处理包括:对漏洞描述信息进行分词、词性还原和停用词过滤;/nS2,对样本漏洞描述信息集合将TF-IDF算法和信息增益算法相融合对经过分词、词性还原和停用词过滤后的漏洞描述信息中的每个词的权重进行计算,获取重要特征词集列表,具体步骤包括:/nS21,遍历词集列表中的每个词,对词集列表进行词统计,存储在词统计字典里;/nS22,遍历词统计字典,计算每个词的词频值存入词频字典,计算每个词的逆向文件频率值,存入逆向文件频率字典,再计算每个词的TF-IDF权重值存入TF-IDF字典中;/nS23,按每个词的TF-IDF权重值对TF-IDF字典进行降序排序,选择前n个词作为特征词集,将特征词集存入特征列表;/nS24,遍历特征列表,根据漏洞类别数目划分特征词集并将子集并存入特征子集列表中,每个漏洞类别对应一个特征子集,然后计算相应漏洞类别对应的样本数目与样本漏洞描述信息集合中样本总数目的比例作为漏洞类别出现的概率;/nS25,采用信息增益算法计算特征列表中每个词的经验条件熵存入熵值字典,再计算特征列表中每个词的信息增益值,将每个词和对应的信息增益值存入信息增益值字典;所述采用信息增益算法计算特征列表中每个词的经验条件熵存入熵值字典,再计算特征列表中每个词的信息增益值的具体步骤为:/n设训练数据集为D,|D|表示其样本容量,即样本个数,设有K个类C
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910068001.2/,转载请声明来源钻瓜专利网。