[发明专利]一种基于流量特征和随机森林的端口扫描检测方法在审
申请号: | 201710818670.8 | 申请日: | 2017-09-12 |
公开(公告)号: | CN109495428A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 杨育斌;段永耀;覃晓宁;柯宗贵 | 申请(专利权)人: | 蓝盾信息安全技术股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510665 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 流量特征 随机森林 端口扫描检测 端口扫描 流量数据 全面分析 多维度 算法 | ||
本发明公开了一种基于流量特征和随机森林的端口扫描检测方法,该发明采用了随机森林算法全面分析多维度流量特征的方案,从而实现通过流量数据多角度识别端口扫描的目的。
技术领域
本发明涉及一种互联网通信技术领域,特别涉及一种基于流量特征和随机森林的端口扫描检测方法。
背景技术
端口扫描(Port Scan)是黑客发送一些正常的扫描消息,例如连接请求,通过回应类型获知服务器端口开放情况的黑客攻击手段。而许多网络服务,例如ssh服务,WWW服务等与端口号直接相关,通过服务器的端口开放情况可以获知服务器开启的服务类型,甚至可以获取漏洞信息,从而找到攻击弱点。
如今已经发展出多种多样的端口扫描工具,比如最常见的nmap。通过这些自动化的扫描工具,可以很隐蔽的发现远程服务器的各种端口信息,再利用配套的分析软件,甚至能获取服务器提供的服务以及软件版本。因此,端口扫描虽然不会直接对主机产生负面影响,却会为攻击者的下一步攻击提供重要信息,而快速精准的检测到端口扫描行为,能够及时地预警攻击者的后续攻击,为阻止攻击扩散争取了宝贵时间。
端口扫描又分为慢扫描和快扫描,一般水平的黑客常常会采用快扫描的方式,这样可以在被攻击者的防御措施响应之前,快速扫描大量端口,但是这种方式由于短时间内的请求数过高,很容易被检测出来。于此不同的是,慢扫描有意控制了扫描的速度,使单位时间内的请求数量远低于快扫描,仅略高于正常的访问,从而可以绕过大量基于规则匹配的端口扫描检测软件。
本发明针对的是在端口扫描的多种形式中,最常见的TCP全连接端口扫描,并对慢扫描提出了一种有效的检测方式。
发明内容
为克服现有技术的不足,本发明采用了使用随机森林算法全面分析多维度流量特征的方案,从而实现通过流量数据多角度识别端口扫描的目的。
通过在网络节点中部署专门的安全设备日志收集设备,日志进行捕捉分析、解析日志,关联netflow等协议解析工具,提取日志中的IP地址信息、端口信息、协议类型、流量的方向、单位时间内的传输次数、一次传输的耗时、一次传输数据流中包含的数据包数量以及总字节数等特征,获取端口扫描相应的流量数据,定期训练随机森林分类器模型,获得对端口扫描的识别能力;然后在获取日常的流量数据后,通过数据采样得到样本,输入随机森林分类器进行检测,当分类器的输出结果为非正常时,进行告警。
根据数据的定向分析,我们发现:端口扫描在流量特征中相比于正常访问有较大区别,比如单位时间内访问次数多,传输时长短,一次数据传输中数据包数量少,一般低于3个,且协议为TCP,流量方向多为外网到内网,且数据总字节数小于正常访问,在本发明之前,已经有不少发明针对个别特征,人工选定阈值,通过是否超过阈值来判断是否是端口扫描,但是都不可避免地陷入阈值的选定问题,以及特征选取不全面的问题。本发明针对这些问题,提出了使用机器学习中的随机森林分类算法,通过模拟端口扫描行为、收集客户环境中的正常访问数据,自适应的归纳、训练出最合适的判断标准,从而全面、智能的识别端口扫描行为。
本发明针对通过多维流量特征识别端口扫描的目的,选择了随机森林分类算法,这是因为随机性的引入,使得随机森林不容易陷入过拟合,并具有很好的抗噪声能力,而且随机森林由于是多个决策树的融合算法,天然就支持并行化,对于本发明需要处理的海量数据具有很好的适应性。
本发明本发明技术方案带来的有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝盾信息安全技术股份有限公司,未经蓝盾信息安全技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710818670.8/2.html,转载请声明来源钻瓜专利网。