[发明专利]基于深度神经网络的网络安全关键词抽取方法有效
申请号: | 202010229237.2 | 申请日: | 2020-03-27 |
公开(公告)号: | CN111444704B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 宋虹;陈济民;林丹丹;王伟平 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/253;G06F40/289;G06F40/295;G06F40/30;G06F16/35;G06N3/0442;G06N3/0455;G06N3/08 |
代理公司: | 长沙永星专利商标事务所(普通合伙) 43001 | 代理人: | 周咏;米中业 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 神经网络 网络安全 关键词 抽取 方法 | ||
本发明公开了一种基于深度神经网络的网络安全关键词抽取方法,包括采集网络安全文本数据集;构建深度神经网络并对网络安全文本数据集进行训练得到训练后的深度神经网络模型;采用训练后的深度神经网络模型对分词系统词库进行扩展;对分词之后的文本集合进行文本关键词的抽取并得到最终的网络安全关键词抽取结果。本发明提出了一种深度神经网络来改进文本分词的不足,并通过文本中每个词语的位置以及词性来提取文本的关键词集合;因此,本发明方法能够有效的提取网络安全文本中的关键词集合,具有较高的准确率,而且可靠性高,实用性好。
技术领域
本发明属于信息技术领域,具体涉及一种基于深度神经网络的网络安全关键词抽取方法。
背景技术
随着经济技术的发展和人们生活水平的提高,信息安全已经成为了人们生产和生活中越来越关注的问题。
然而,近年来,我国的互联网技术发展十分迅猛,人们对网络信息时代的依赖性增强,各种各样的网络攻击也不断增多,这些网络攻击已经严重影响到了我们的日常生活。网络安全热点事件挖掘已经成为了当前网络安全行业的关注重点,多个发达国家已经成立了专门的网络安全组织对网络安全热点事件挖掘与舆情监控。网络安全关键词抽取从网络安全文本集合中抽取能够概括网络安全事件信息以及重要性的词语或者是短语,是网络安全热点事件挖掘与深度分析的重要基础部分。
关键词抽取主要包含三个步骤:文本分词、去停用词、关键词评分。目前的中文文本分词主要利用文本分词工具来实现,主流的有结巴分词、snowNLP分词等,该分词工具的原理是利用分词系统中的分词词库以及字符匹配的方法来对文本自动化分词。由于网络安全领域的特异性、多元性导致大部分网络安全词汇没有出现在分词工具的词库中。去停用词即去除文本中对文本主旨没有意义的词语,这些词往往是介词、连词、副词等没有实际意义的词。关键词评分通常根据词语在文本中的特征作为评价指标,词语的特征评价有以下几类:基于词语权重统计的、基于词语主题信息分布的、基于词语之前语法关系的特征评价。
目前的关键词抽取技术在网络安全文本中主要存在这些不足:当前分词系统对与网络安全领域词汇分词效果不高,需要对分词系统进行改进。并且关键词的评分技术对于网络安全文本中的词汇提取效果不高,无法展示网络安全文本的关键主旨。
发明内容
本发明的目的在于提供一种可靠性高、实用性好且准确率较高的基于深度神经网络的网络安全关键词抽取方法。
本发明提供的这种基于深度神经网络的网络安全关键词抽取方法,包括如下步骤:
S1.采集网络安全文本数据集;
S2.构建深度神经网络;
S3.采用步骤S2构建的深度神经网络,对步骤S1获取的网络安全文本数据集进行训练,得到训练后的深度神经网络模型;
S4.采用步骤S3得到的训练后的深度神经网络模型,对分词系统词库进行扩展;
S5.根据词语的位置特性和词性,对分词之后的文本集合进行文本关键词的抽取,从而得到最终的网络安全关键词抽取结果。
步骤S1所述的采集网络安全文本数据集,具体为采用爬虫技术采集网络安全文本数据集。
所述的采用爬虫技术采集网络安全文本数据集,具体为采用如下步骤获取网络安全文本数据集:
A.对安全文本数据集进行定义;
B.采用爬虫技术采集网络安全文本数据集;
C.对步骤B采集的网络安全文本数据集进行数据清理,从而得到最终的清理后的网络安全文本数据集。
步骤S2所述的构建深度神经网络,具体为采用如下步骤构建深度神经网络:
a.采用此向量训练模型,将步骤S1获取的网络安全文本数据集转换为词向量序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010229237.2/2.html,转载请声明来源钻瓜专利网。