[发明专利]基于语义重编码与特征空间分离的Web入侵检测方法有效

专利信息
申请号: 201811139555.9 申请日: 2018-09-28
公开(公告)号: CN109376531B 公开(公告)日: 2021-06-01
发明(设计)人: 吴震东 申请(专利权)人: 杭州电子科技大学
主分类号: G06F21/55 分类号: G06F21/55;G06K9/62;G06F16/17
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 黄前泽
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于语义重编码与特征空间分离的Web入侵检测方法。本发明将Web访问数据流中访问本地资源的“GET”、“POST”命令后续字符串及Web日志中的特征值作为检测对象。通过Web入侵检测模型训练与Web入侵检测模型检测,对现有的Web入侵字符流检测。本发明有效利用了Web访问正常字符流与异常字符流之间往往有明显语义差别的特点,通过单词重编码让正常字符流与异常字符流之间的差异突显,同时用空间重投影技术进一步分离正常异常样本,提高了Web入侵检测的准确率,对现有的Web入侵字符流检测,准确率达到99%以上。
搜索关键词: 基于 语义 编码 特征 空间 分离 web 入侵 检测 方法
【主权项】:
1.基于语义重编码与特征空间分离的Web入侵检测方法,将Web访问数据流中访问本地资源的“GET”“POST”命令后续字符串及Web日志中的特征值作为检测对象;其特征在于:包括Web入侵检测模型训练与Web入侵检测模型检测;步骤如下:步骤一、Web入侵检测模型训练,具体步骤如下:(1)对提取的Web访问字符串进行分词操作,用http字符流断词标点、特殊字符作为分隔符,特殊字符由用户根据经验及Web入侵常用单词预先设定,切分Web访问字符串为单词串;http字符流断词标点、特殊字符随着http协议的变化,以及Web系统流量特点的变化会有差异,需要不断更新,使用时能够预定义断词标点与特殊字符串表,表格的更新由用户自行维护;(2)对Web日志进行提取特征值操作,提取Web日志IP地址、日期、时间、状态码基本信息,用自定义函数计算Web日志特征值;Web日志信息及自定义函数会随着系统变化更新,由用户自行维护;(3)构建单词表,将步骤(1)获取的切分后字符串视为单词填入单词表,将步骤(2)获取的每一个特征值视为一个单词填入单词表;(4)将Web访问字符串以单词的方式重新整理为记录,一次访问一条记录;对Web日志信息中与当前Web访问字符串同一时间段内的日志信息计算特征值,如同一时间段内有多条日志信息则计算它们的平均值,日志特征值按固定顺序排列,特征值1,特征值2,……,特征值n,形成一条记录;将2条记录前后顺次拼接为1条记录;(5)从Web访问流量中提取的攻击样本与正常样本,进行步骤(1)(2)(3)(4)的操作,形成正负样本记录集合;(6)排序单词表,分别扫描正样本记录和负样本记录,统计单词在正样本和负样本中出现的频率,一行记录中出现多次按一次统计;计算同一个单词在正负样本中出现的频率差,依据频率差对单词排序,依据综合词频单词表被重新排序;(7)单词表重编码,设定阈值T1大于0、T2小于0,如果综合词频单词表中单词综合词频大于T1或小于T2,一对一重编码;如果单词综合词频小于T1并且大于T2,多对一重编码,综合词频小于T1并且大于T2的多个单词合并为一个单词WordM,未知单词也编码为WordM;重编码后单词表为新码表;(8)将正负样本按新码表重映射,样本中有n个单词映射到同一个单词时,该单词对应位置上的值加n,映射结果使得任意不等长单词序列映射为等长的单词序列;所有正负样本经重映射后,形成等长训练样本集合S,表示为S={(xi,yi)},1≤i≤m,y∈{0,1},m表示训练样本的个数,xi为训练集合中的记录(单词序列),长度等长记为n,y∈{0,1}表示正负样本标签,用于训练分类器;(9)分别计算正负样本均值向量见式(1):其中j表示正负样本分类,mj表示正负样本的个数,m0+m1=m,m为参加训练的样本总数;(10)计算正负样本类内离散度,得类内离散度矩阵Sw,见式(2):其中X0表示训练样本S中的正样本集合,X1表示训练样本S中的负样本集合;μ0为正样本均值向量,μ1为负样本均值向量;(11)计算正负样本间平均离散度,得类间离散度矩阵Sd,见式⑶:Sd=(μ0‑μ1)(μ0‑μ1)T    ⑶;T表示矩阵转置;(12)计算正负样本空间分离投影矩阵W:计算矩阵Sw‑1Sd的特征值及对应的特征向量,即:(Sw‑1Sd)w=λw,w为矩阵的特征向量,λ为特征值;将前n1个大于0的最大的特征值按序排列,各特征值对应的特征向量{w1,w2,....,wn1}作为矩阵的列顺次组合,得到分离投影矩阵W,n1取值可由用户根据经验进行;进行空间分离操作时将样本左乘WT,即WTxi,其中Sw‑1表示矩阵的逆,xi含义参见步骤(8);(13)用空间分离投影矩阵W对正负样本均值进行投影,得式⑷与式⑸:U0=wTμ0    ⑷;U1=wTμ1    ⑸;(14)保留综合词频单词表,重编码后单词表(新码表),正负样本空间分离投影矩阵W,正负样本均值投影向量U0,U1,为后续新样本测试时使用;步骤二、Web入侵检测模型检测,具体步骤如下:①、提取待测试的Web访问字符串并进行分词操作,分词操作http字符流断词标点、特殊字符作为分隔符,特殊字符由用户根据经验及Web入侵常用单词预先设定;切分Web访问字符串为单词串;http字符流断词标点、特殊字符随着http协议的变化,以及Web系统流量特点的变化会有差异,需要不断更新,使用时可预定义断词标点与特殊字符串表,表格的更新由用户自行维护;②、对Web日志进行提取特征值操作,用与步骤(2)同样的方法提取待测试Web访问的特征值;③、调取步骤一建立的综合词频单词表,重编码后单词表;④、对照综合词频单词表、重编码后单词表将待测试Web访问字符串映射为由单词序列组成的待测试记录t;⑤、调取步骤一中保留的投影矩阵W,计算Ts=WTt;Ts为待测试记录t经特征空间分离投影后得到的特征向量,用该特征向量刻画的正负样本具有更好的区分度;⑥、判断Ts与U0,U1之间的距离,与U0更近则判断为正样本,与U1更近则判断为负样本,距离计算采用向量欧氏距离,入侵检测过程结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811139555.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top