[发明专利]一种基于子轨迹模式的网络行为异常检测方法有效
申请号: | 201910565001.3 | 申请日: | 2019-06-27 |
公开(公告)号: | CN110113368B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 邵俊明;刘洋;杨勤丽 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 轨迹 模式 网络 行为 异常 检测 方法 | ||
1.一种基于子轨迹模式的网络行为异常检测方法,其特征在于,包括以下步骤:
(1)、网络流量数据收集及清洗整理:
收集网络流量数据,根据分析需求对收集的流量数据进行清洗,接着再针对当前的网络数据,明确在网络中用户行为的定义,抓取每个用户的网络流量数据并将其转换为用户行为轨迹序列;
(2)、用户行为轨迹序列分段:
对于每个用户的行为轨迹序列,根据最小描述长度准则将其分割为多个子行为轨迹序列,其中每个子行为轨迹序列都较为统一,代表某段时间内用户在网络环境中的一段行为模式较为固定的行为记录;
(3)、对子行为轨迹序列进行相似性度量:
对需要进行异常检测的用户即待检测用户,将其每个子行为轨迹序列视作为一个时间序列,根据词向量的方法得出每种行为对应的特征向量,然后结合行为之间的转移概率计算每个子行为轨迹序列与其他行为序列之间的相似性;
(4)、子轨迹模式异常检测:
将每个用户的子轨迹行为序列映射为一个网络即用户行为模式网络,每个子轨迹行为序列到其他行为序列的距离即为他们之间的相似性;若一个行为序列和与其最相似的k个行为序列的相似度较高,就认为该行为序列在行为模式网络中的对应映射点密度较大;密度刻画了待检测点和周边邻居点的分布的关系,密度大,说明该点位于某个簇中或者周边的邻居点的数目多,则该点就不太可能会是异常点,其对应的行为序列就属于正常序列,反之,密度小则说明该点很有可能是一个异常点,从而可确定该点所对应的行为序列很有可能是一个异常行为序列。
2.根据权利要求1所述的网络行为异常检测方法,其特征在于,步骤(2)中,所述的根据最小描述长度准则来进行行为轨迹序列分段,和步骤(3)中,所述的根据词向量的方法计算子行为轨迹序列之间的相似性:
2.1)、对于所有待划分的用户行为轨迹序列,第一步:将待划分行为序列读入缓冲区,计算各段长度:
首先遍历所有的用户行为序列,统计所有出现的行为之间的转移概率并保存,然后采用贪心原则,每次读取行为序列中的一个行为点,对缓冲区中的数据取首尾数据点计算按以下公式分别计算假设长度L(H)和编码损失L(D|H):
L(H)=log2(len(D))
其中,len(D)表示缓冲区中的行为序列长度即行为个数之和,pi表示第i个行为到第i+1个行为的转移概率;
第二步:判断划分点:
根据下面的公式计算若新的行为点不加入轨迹序列时的表征长度L(D):
由于采用了贪心原则,所以当原始表征长度和划分后的序列长度之差L(H)+L(D|H)-L(D)λ时,λ为给定的一个阈值,将继续读取行为序列进入缓冲区,反之,将前一个行为点与缓冲区内的第一个行为点标记为特征点,作为划分后的一段子行为轨迹序列的起始点,并将这一段子行为序列从缓冲区中删去;可以看出,当行为序列中突然出现一个转移概率很低的行为时,若把该行为继续加入到子行为序列中去,编码损失会变得很大超出阈值范围,就可以认为该行为与之前行为序列的行动模型有很大的差别,因此,使用基于最小描述长度准则的方法可以将用户的行为轨迹序列很好的划分开来;
第三步:输出所有划分后的子行为轨迹序列:
当所有用户的数据读取完毕后,清空缓冲区,输出所有用户划分后的子行为轨迹序列,其中,每个用户的子行为轨迹序列都具有行为模式上的一致性;
2.2)、一个用户的子行为轨迹序列为T=<st1,st2,...,stn>,假设行为序列中的每个行为与前后c个行为之间有关系,则这条轨迹序列出现的概率为
其中,代表与行为sti相邻的2c个行为,而
为了对p(sti+j|sti)展开计算,可以用一个隐藏层为k维的2层神经网络结构来建立时空嵌入式用户行为序列表示模型,该模型是采用极大似然估计来计算目标函数,即最大化行为序列概率;假设用户子行为轨迹序列集合中共有N条行为轨迹,轨迹T中有NT个行为,则模型目标函数的表达式如下所示:
其中,表示给定行为sti前后c个行为,行为sti出现的概率;
在模型训练完成后,得到每个行为对应的k维特征向量,然后就可以计算所有用户的子行为轨迹序列之间的相似性,在本实施例中,行为轨迹序列之间的相似性度量方法为:
分别找到两条行为轨迹序列之间的行为对转移概率,然后对两个行为序列中的任意两个行为所对应的嵌入向量求欧氏距离然后再加权求和来计算行为序列T1和T2之间相关性:
其中,NT1和NT2分别表示行为序列T1和T2中行为的个数,Tij表示行为i转移到行为j的概率,c(i,j)表示i和j两个行为对应的特征向量的欧氏距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910565001.3/1.html,转载请声明来源钻瓜专利网。