[发明专利]一种从非结构化数据中提取网络安全新词的方法有效
申请号: | 202010353099.9 | 申请日: | 2020-04-29 |
公开(公告)号: | CN111538893B | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 黄诚;李滢;程嘉兴 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F16/332;G06F40/279;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结构 数据 提取 网络安全 新词 方法 | ||
1.一种从非结构化数据中提取网络安全新词的方法,其特征包括以下步骤:
A.结合网络静态和动态爬虫技术,提取网络安全社区中用户发言文本内容、用户基本信息以及留言内容,作为词汇原始数据仓库,并利用手工方式,对词汇原始数据仓库中相关语句进行标注,标注时不改变语句中出现的网络安全词汇的形式,并收集这些词汇形成基准网络安全词库;
B.对原始数据仓库进行数据处理,对其所包含的所有文本句子进行切词、清洗;
C.定义特征向量类型及生成方法,提取词汇的词向量、词性向量、词汇静态特征向量以及词汇的字符特征向量,具体的特征向量生成方法如下,
词汇固定长度词向量生成方法:基于全局语料库、结合上下文语境构建词向量,与此同时考虑词的共现情况,即单词与其上下文单词在特定的上下文窗口内共同出现的次数,根据与某一个单词的相关的概率之比学习词向量,实现将词汇转化为固定的长度向量,其中计算与某一个单词相关的概率之比的公式为:所述Pik表示词i的上下文中词k出现的概率,所述P(i|k)为Pik的计算公式;所述Pjk表示词j的上下文中词k出现的概率,所述P(j|k)为Pjk的计算公式;
词性向量生成方法:对每一个句子处理的结果,利用自然语言处理NTLK库对每个词的词性进行标注,利用独热编码进行向量化;
词汇静态特征向量生成方法:对每一个句子的处理结果,提取每一个词汇的静态特征,所述静态特征包括对特殊字符、字母数字的统计特征,对词汇的静态特征进行编码,利用独热编码进行向量化;
字符特征向量生成方法:对每一个句子的处理结果,对每一个词汇利用一维卷积神经网络算法提取字符特征,以n为输入的最长字符数,不足n字符的输入数据用0补齐,超过n个字符的输入数据只保留前n字节,输出为每一个词汇的字符特征向量;
D.将步骤C中所得到的词汇的词向量、词性向量、词汇静态特征向量以及词汇的字符特征向量拼接获得合成向量,并将合成向量输入到双向长短期记忆神经网络,从而构建模型;
E.定义网络安全新词识别方法,结合基准网络安全词库、步骤D生成的模型以及阈值,判断输入的词汇是否属于网络安全新词。
2.根据权利要求1所述的一种从非结构化数据中提取网络安全新词的方法,其对原始数据仓库处理的特征在于:对原始数据仓库中所有文本句子进行切词,移除非ASCII字符,但是在移除符号时不删除特殊字符,特殊字符指除英文字母和阿拉伯数字以外的字符,并对句子中的每一个词汇进行词形还原操作。
3.根据权利要求1所述的一种从非结构化数据中提取网络安全新词的方法,其模型建立的具体步骤在于:
(1)将每一个词汇固定长度的词向量X1、词汇静态特征向量X2、词性向量X3、字符特征向量X4进行特征融合,得到合成向量;
(2)其中,所述特征融合的公式为W=X1||X2||X3||X4,其中||为拼接符号;
(3)利用双向长短期记忆神经网络构建模型,输入是通过预处理后的合成向量。
4.根据权利要求1所述的一种从非结构化数据中提取网络安全新词的方法,其特征在于:网络安全新词与一般新词有差别,它们没有明显的统计学特征,网络安全领域新词的判定依赖于语义、已有词库及词汇的流行度,新词判定的具体步骤包括:
(1)利用训练完成的深度学习模型,判断新的文本输入内容中的黑客用户/组织及黑客工具两种类型的词汇,若属于这两类则将词汇作为候选词,并交给新词判决器进行判断,若不属于则丢弃所述词汇;
(2)将模型判断的网络安全词汇与基准网络安全词库中的词汇进行比较,判断所述网络词汇是否在词库中;
(3)当候选词在词库中时,则为网络安全相关词汇,但不是新词;
(4)当候选词不在词库中时,计算该词出现的次数占同一讨论话题帖子下的总词数的比例,判断所述词汇的出现频率与预定阈值之间的大小关系;其中,所述频率计算公式如下其中N(w)表示词汇的出现次数,N(a)表示文本域的总词数;
(5)当所述词汇的频率大于预定阈值时,利用谷歌趋势平台搜索该词的流行度,若该候选词在谷歌趋势中从词库建立所处时间前至今趋势一直比较稳定,则不可判断为新词;若该候选词在谷歌趋势中在已有词库的年限之前的趋势较为平缓并且在已有词库的年限之后具有大幅度的上升趋势或在谷歌趋势中没有足够的数据,可判断为新词;
(6)当所述词汇的频率低于预定阈值时,则不可判断为新词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010353099.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种TTP自动化提取与攻击团队聚类的方法
- 下一篇:一种对象的推荐方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置