[发明专利]一种基于语义分析及向量化大数据的XSS入侵识别方法在审
申请号: | 202011567690.0 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112580050A | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 张海军;陈映辉 | 申请(专利权)人: | 嘉应学院 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F40/284;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安研创天下知识产权代理事务所(普通合伙) 61239 | 代理人: | 郭璐 |
地址: | 514015 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 分析 量化 数据 xss 入侵 识别 方法 | ||
1.一种基于语义分析及向量化大数据的XSS入侵识别方法,其特征在于,包括以下步骤:
步骤1:获取待检测数据,进行文本切割、清洗、分词、词性标注、去停用词,得到预处理后的数据;
步骤2:构建基于连续词袋模型CBOW实现的词向量化模型,采用词向量化算法将预处理后的数据映射为分布式词向量;
步骤3:将词向量化的样本进行统计,得到正样本数据集和负样本数据集,并将两个数据集合并得到词向量化大数据样本集,且将大数据样本集随机划分为训练集和测试集,数量比为7:3;
步骤4:将词向量化大数据样本集中的样本输入到不同深度的深层神经网络DNN中进行训练,确定各深层所述深层神经网络DNN中的各项超参数;
步骤5:实时采集HTTP请求的数据,对HTTP请求进行攻击检测,识别入侵攻击行为。
2.根据权利要求1所述的一种基于语义分析及向量化大数据的XSS入侵识别方法,其特征在于,步骤1的具体操作步骤包括:
步骤11:遍历数据集,将数字用“0”替换,将http/、HTTP/、https/、HTTPS用“http://”替换;
步骤12:按照html标签、JavaScript函数体、http://和参数规则进行分词;
步骤13:基于日记文档构建词汇表,再对单词进行独热编码,得到处理后的样本数据。
3.根据权利要求2所述的一种基于语义分析及向量化大数据的XSS入侵识别方法,其特征在于,步骤2所述的词向量算法的具体操作步骤包括:
S21:设定词向量化模型的最大化对数似然函数,其公式为:
其中,w为语料库C中的词;
利用Hierarchical Softmax方法先计算w的条件概率,如下:
其中,pw表示路径,lw表示节点个数;表示路径中的各个结点;表示词w的编码;表示路径中第j个结点对应的编码,表示路径上非叶子节点对应的参数向量;
S22:通过对(1)式进行推导可得出上下文单词词向量的计算公式为:
其中,v(w%)表示上下文单词词向量;
S23:将所述样本数据输入到公式(7)中,可得到数据的词向量。
4.根据权利要求3所述的一种基于语义分析及向量化大数据的XSS入侵识别方法,其特征在于,步骤4的具体操作步骤包括:
S41:定义深层神经网络DNN设置的均方误差为:
S42:为了求最优化参数,使用梯度下降法最小化函数,设求出的偏导数分别为每个单元的“残差”,记为可得输出层单元的残差为:
S43:求解l=nl-1,nl-2,...,2时各个层的单元的残差,例如l=nl-1层的各单元的残差求解公式为:
其中,W表示权值,b表示偏置,(x,y)表示训练样本,hW,b(x)表示最后的输出量,f(·)表示激活函数;
S44:将上式中的nl-1与nl的关系替换为l与l+1的关系,可得:
利用以上公式即可求出每个单元的残差,进而求出基于权值等变量的偏导数:
S45:根据上式可得权值的改变过程:
偏置项的改变过程为:
S46:将输入的样本值与所述大数据样本值进行对比,直到网络训练的均方误差达到要求,确定网络的超参数。
5.根据权利要求4所述的一种基于语义分析及向量化大数据的XSS入侵识别方法,其特征在于,所述超参数包括样本块大小、学习率以及各层包含的神经元数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于嘉应学院,未经嘉应学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011567690.0/1.html,转载请声明来源钻瓜专利网。