首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]基于深度神经网络的网络安全关键词抽取方法有效

申请号：	202010229237.2	申请日：	2020-03-27
公开（公告）号：	CN111444704B	公开（公告）日：	2023-09-19
发明（设计）人：	宋虹;陈济民;林丹丹;王伟平	申请（专利权）人：	中南大学
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/253;G06F40/289;G06F40/295;G06F40/30;G06F16/35;G06N3/0442;G06N3/0455;G06N3/08
代理公司：	长沙永星专利商标事务所(普通合伙) 43001	代理人：	周咏;米中业
地址：	410083 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度神经网络网络安全关键词抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度神经网络的网络安全关键词抽取方法，包括如下步骤：

S1.采集网络安全文本数据集；具体为采用爬虫技术采集网络安全文本数据集，具体包括如下步骤：

A.对安全文本数据集进行定义；

B.采用爬虫技术采集网络安全文本数据集；

C.对步骤B采集的网络安全文本数据集进行数据清理，从而得到最终的清理后的网络安全文本数据集；

S2.构建深度神经网络；具体为采用如下步骤构建深度神经网络：

a.采用此词向量训练模型，将步骤S1获取的网络安全文本数据集转换为词向量序列；

b.采用BiLSTM神经网络结构，对步骤a得到的词向量序列进行处理，从而得到每个字符在神经网络中各个标签类别的概率；

c.对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理，从而得到最终的每个字符的标签类别；具体为采用条件随机场作为标签分类层，对步骤b得到的每个字符在神经网络中各个标签类别的概率进行归一化处理，从而得到最终的每个字符的标签类别；

S3.采用步骤S2构建的深度神经网络，对步骤S1获取的网络安全文本数据集进行训练，得到训练后的深度神经网络模型；具体为采用如下步骤进行训练：

(1)对网络安全实体的类别进行定义；

(2)对网络安全命名实体的标注方式进行定义；

(3)对训练集进行标注；

(4)将步骤(3)得到的标注后的训练集输入步骤S2得到深度神经网络模型进行特征学习；

S4.采用步骤S3得到的训练后的深度神经网络模型，对分词系统词库进行扩展；具体为采用如下步骤进行扩展：

1)将文本输入步骤S3得到的训练后的深度神经网络模型，从而得到文本中的实体类别标签分类；

2)根据步骤1)中的实体类别标签分类结果，对文本中的实体进行自动分类和组合，从而得到文本中所用的网络安全实体集合；

3)将步骤2)得到的网络安全实体集合作为结巴分词的扩充词典，并通过结巴分词的分词函数对文本进行分词，从而得到最终的分词后的文本集合；

S5.根据词语的位置特性和词性，对分词之后的文本集合进行文本关键词的抽取，从而得到最终的网络安全关键词抽取结果；具体为采用如下步骤进行抽取：

Ⅰ.采用如下算式计算每篇文本中每个词语的TF频数tf_ij：

式中tf_ij为第i篇文本的第j个词语频数表示；n_i,j为第i篇文本的第j个词语在第i篇文本中出现的次数；n_k,j为第i篇文本中的第k个词语出现的次数；k为第i篇文本中的第k个词语；

Ⅱ.采用如下算式计算每个词语的IDF逆文档频率idf_ij：

式中idf_ij为第i篇文本的第j个词语逆文档频率；w_i,j为第i篇文本的第j个词语在第i篇文本中出现的次数；s_i,j为第i篇文本的第j个词语全文文本中出现的次数；

Ⅲ.采用如下算式计算每个词语的权重v：

式中v为词语的权重比值；α为词语在标题中的时候的权重比值，本文取1.3；β为词语属于网络安全实体时的权重取值，本文取1.5；

Ⅳ.采用如下算式计算每个词语的TF-IDF权值tfidf_ij：

tfidf_ij＝tf_ij*idf_ij*v

式中tfidf_ij为每个词语的权重；tf_ij为每个词语的TF频数；idf_ij为每个词语的IDF逆文档频率；v为词语的权重比值；

Ⅴ.根据步骤Ⅳ得到的权值，获取文本中每个词的权重排序，从而得到每篇文本中前若干个关键词集合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中南大学，未经中南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010229237.2/1.html，转载请声明来源钻瓜专利网。

上一篇：基于API网关的兼容接入系统及其兼容接入方法
下一篇：一种采用外挂式CPU的轨交车车载NAT的方法

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top