[发明专利]基于深度神经网络的软件漏洞自动分类方法有效

申请号：	201910068001.2	申请日：	2019-01-24
公开（公告）号：	CN109886020B	公开（公告）日：	2020-02-04
发明（设计）人：	何海涛;任家东;王倩;李亚洲;胡昌振	申请（专利权）人：	燕山大学
主分类号：	G06F21/56	分类号：	G06F21/56;G06F21/57;G06F40/289;G06F40/216;G06F40/247;G06N3/04;G06N3/08
代理公司：	11474 北京孚睿湾知识产权代理事务所(普通合伙)	代理人：	韩燕
地址：	066000 河北省***	国省代码：	河北;13
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请提供一种基于深度神经网络的软件漏洞自动分类方法，包括：S1，对漏洞信息进行预处理后形成词集列表；S2，对样本漏洞描述信息集合使用TF‑IDF算法和IG算法对每个词的权重进行计算，获取重要特征词集列表；S3，根据重要特征词集列表生成词向量空间，把每一条漏洞描述信息表述成一个m维的向量，m是重要特征词集中特征词的数量；S4，使用DNN模型获得软件漏洞分类器；S5，新的漏洞描述信息集合进行分类。本发明基于TF‑IDF和IG算法构建深度神经网络漏洞自动分类模型，降低了高维词向量空间的维度，能够适应不断更新的软件漏洞数据集，有效地处理词向量空间的高维性和稀疏性，在准确率、召回率、精度等多维评价指标中表现出较好性能。
搜索关键词：	软件漏洞描述信息神经网络自动分类词向量漏洞高维算法集合预处理列表生成漏洞信息模型获得评价指标算法构建分类器数据集特征词稀疏性有效地准确率多维权重维度向量样本分类更新申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度神经网络的软件漏洞自动分类方法，其特征在于，具体步骤如下：/nS1，漏洞描述信息集合中包括多条漏洞描述信息，对漏洞信息进行预处理后形成词集列表，预处理包括：对漏洞描述信息进行分词、词性还原和停用词过滤；/nS2，对样本漏洞描述信息集合将TF-IDF算法和信息增益算法相融合对经过分词、词性还原和停用词过滤后的漏洞描述信息中的每个词的权重进行计算，获取重要特征词集列表，具体步骤包括：/nS21，遍历词集列表中的每个词，对词集列表进行词统计，存储在词统计字典里；/nS22，遍历词统计字典，计算每个词的词频值存入词频字典，计算每个词的逆向文件频率值，存入逆向文件频率字典，再计算每个词的TF-IDF权重值存入TF-IDF字典中；/nS23，按每个词的TF-IDF权重值对TF-IDF字典进行降序排序，选择前n个词作为特征词集，将特征词集存入特征列表；/nS24，遍历特征列表，根据漏洞类别数目划分特征词集并将子集并存入特征子集列表中，每个漏洞类别对应一个特征子集，然后计算相应漏洞类别对应的样本数目与样本漏洞描述信息集合中样本总数目的比例作为漏洞类别出现的概率；/nS25，采用信息增益算法计算特征列表中每个词的经验条件熵存入熵值字典，再计算特征列表中每个词的信息增益值，将每个词和对应的信息增益值存入信息增益值字典；所述采用信息增益算法计算特征列表中每个词的经验条件熵存入熵值字典，再计算特征列表中每个词的信息增益值的具体步骤为：/n设训练数据集为D，|D|表示其样本容量，即样本个数，设有K个类C

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于燕山大学，未经燕山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910068001.2/，转载请声明来源钻瓜专利网。

上一篇：一种基于RTL级特征提取的硬件木马检测方法
下一篇：一种基于API全局词向量和分层循环神经网络的恶意代码检测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F21-00 防止未授权行为的保护计算机或计算机系统的安全装置
G06F21-02 .通过保护计算机的特定内部部件
G06F21-04 .通过保护特定的外围设备，如键盘或显示器
G06F21-06 .通过感知越权操作或外围侵扰
G06F21-20 .通过限制访问计算机系统或计算机网络中的节点
G06F21-22 .通过限制访问或处理程序或过程

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度神经网络的软件漏洞自动分类方法有效

专利文献下载