[发明专利]一种基于改进密度峰值聚类的异常轨迹检测方法在审
申请号: | 202111008601.3 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113762374A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 王帅;李伟;李涛;袁健;王蓉;王晓羽 | 申请(专利权)人: | 南京宁正信息科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京源古知识产权代理事务所(普通合伙) 32300 | 代理人: | 郑宜梅 |
地址: | 210046 江苏省南京市栖*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 密度 峰值 异常 轨迹 检测 方法 | ||
本发明公开了一种基于改进密度峰值聚类的异常轨迹检测方法,包括如下步骤:步骤A:获取网络中的原始数据,把原始数据转换成ASCII格式的网络分组信息,再把网络分组信息经过数据预处理程序把属于一条连接的所有数据包整理成一条连接记录,每条连接记录由多个连接特征组成;步骤B:对连接记录的数据属性进行标准化处理;步骤C:通过收集连接记录和对其进行标准化后,获得了数据集U,接下来利用聚类算法来对这些连接记录进行分类;本发明的有益效果是:利用无参的核密度估计理论分析轨迹点的分布特征并自适应选取距离参数,从而来搜索和发现轨迹点的密度峰值,并以峰值点作为初始聚类中心实现异常轨迹行为检测。
技术领域
本发明涉及信息异常轨迹检测领域,具体为一种基于改进密度峰值聚类的异常轨迹检测方法。
背景技术
随着网络技术研究的不断深入以及网络操作系统本身固有的诸多安全缺陷,如何保障信息安全、防范网络入侵成为人们最为关心的问题;
目前解决网络安全问题所采用的方法一般包括防火墙、数据加密、身份认证和入侵检测等,入侵检测很好的弥补了身份认证、访问控制、防火墙等传统保护机制所不能解决的问题,在近期入侵检测系统的发展过程中,研究人员提出了一些新的入侵检测技术,如神经网络、免疫系统、基因算法,然而还未有人将密度峰值算法聚类应用在网络数据的异常检测上。
发明内容
本发明的目的就在于将聚类算法应用在网络数据的异常检测上,在实现精准分配的同时还能解决因簇类而导致判断错误的问题,因此而提出一种基于改进密度峰值聚类的异常轨迹检测方法。
本发明的目的可以通过以下技术方案实现:一种基于改进密度峰值聚类的异常轨迹检测方法,包括如下步骤:
步骤A:获取网络中的原始数据,把原始数据转换成ASCII格式的网络分组信息,再把网络分组信息经过数据预处理程序把属于一条连接的所有数据包整理成一条连接记录,每条连接记录由多个连接特征组成;
步骤B:对连接记录的数据属性进行标准化处理;
步骤C:通过收集连接记录和对其进行标准化后,获得了数据集U,接下来利用聚类算法来对这些连接记录进行分类,聚类算法的分类步骤如下:
S01:计算样本两两之间的距离,找到距离最近的点,形成一个样本集A,并将它们从数据集U中删除;
S02:计算A中每个样本与数据集U中每个样本的距离,找出在U中与A最近的点,将它并入集合A,并从U中删除,直到A中的样本个数达到设定的阈值;
S03:从数据集U中找到样本两两间距离最近的两个点构成A2,重复上述过程,直到形成k个点集;
S04:搜索每个点集区域中的密度峰值,密度峰值为对应的连接记录的连接量与服务攻击量相加的总和,通过连接量除以总和能够得到该点的正常连接率,将该峰值点作为初始聚类中心;
S05:设定比例值N为90%,该比例值表示的意思为正常连接率,根据各个峰值点的正常连接率对相应的点集进行判定,位于N以上的类被判断为正常类,而其余的则被认为异常类,当得到标类后,就可以用来检测网络入侵行为;
S06:对归于异常类别的点集内的连接记录进行排除处理。
进一步在于:所述聚类算法是基于非参数核密度估计的密度峰值聚类算法。
进一步在于:所述连接特征包括连接持续的时间、连接使用的服务端口、连接的结束状态。
进一步在于:所述步骤B中的标准化处理是将数据按比例缩放,使之统一映射到[0,1]区间上,去除数据的单位限制,将其转化为无量纲的纯数值。
进一步在于:所述排除处理的步骤包括:
A01:获取所有被归于异常类别下的点集;
A02:获取点集下的连接记录;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京宁正信息科技有限公司,未经南京宁正信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111008601.3/2.html,转载请声明来源钻瓜专利网。