[发明专利]一种大规模流量异常主机检测方法和装置有效

申请号：	201910316000.5	申请日：	2019-04-19
公开（公告）号：	CN111835681B	公开（公告）日：	2023-08-04
发明（设计）人：	赵志辉;洪敬风;程汝峰	申请（专利权）人：	北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号：	H04L9/40	分类号：	H04L9/40;H04L61/2517;H04L41/14
代理公司：	北京德琦知识产权代理有限公司 11018	代理人：	杜志敏;宋志强
地址：	100083 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种大规模流量异常主机检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种大规模流量异常主机检测方法和装置，所述方法包括：针对第一预设时间内的流量数据构造原始项集；其中，所述原始项集包括：客户端IP地址、主机IP地址和端口号的映射关系；对所述原始项集做关联规则的挖掘，获得被大于预设数目的客户端访问的主机IP地址和端口号；将获得的所述主机IP地址对应的主机的特征向量作为样本，构建预设检测模型；获得第二预设时间内待检测主机的特征向量，通过构建的预设检测模型确定该主机的流量是否异常。该方法在获得大量正常流量样本的基础上，能够提高流判断量异常主机的准确率。

技术领域

本发明涉及信息处理技术领域，特别涉及一种大规模流量异常主机检测方法和装置。

背景技术

网络流量具有自相似、长相关和重尾分布等分布特征，这些对网络流量工程、网络建模和异常检测具有指导意义。流量异常主机检测是入侵检测的一种手段，用于发现系统的异常情况(入侵和攻击、数据泄露等)，主要目的是在事件发生后提供足够的分析来阻止进一步攻击。异常主机的检测方法可以归为两类：一种是基于主机的检测，根据主机的系统日志和审计记录来进行检测分析；另一种是基于行为的检测，根据使用者行为或资源使用特征进行检测分析。流量异常主机检测是一种基于行为的检测方法。

现有的流量异常主机检测方法主要有以下几类：

基于统计学习模型

基于统计学习的流量异常检测，通常需要对正常流量进行数值化的特征提取和分析。通过对大量样本进行特征分布统计建立数学模型，进而通过统计学方法进行异常检测。

基于文本分析的机器学习模型

流量中的URL参数会影响后台代码的解析，因此可以基于隐马尔科夫模型进行文本分析建模，实现流量中的参数值异常检测。

基于单分类模型

由于流量异常主机的黑样本稀少，传统监督学习方法难以训练。基于白样本的异常检测可以通过单分类模型进行样本学习，构造能够充分表达白样本的最小模型实现异常检测。

基于聚类模型

通常正常流量是大量重复性存在的，而入侵行为则极为稀少。因此通过流量的聚类分析，可以识别大量正常行为之外的异常行为。

现有的流量异常主机检测方法主要适用于单个或小规模主机。在大规模主机的实际应用场景中，不同主机之间往往存在很多的关联，现有的方法会出现大量误报。

主机的异常不一定会反映在流量的大小上，基于文本分析的方法对于包含文本信息的流量会有比较好的效果，但对隐去了文本等信息的流量则无法发挥作用。

基于机器学习的分类方法，难点在于很难从真实流量中获取足够有代表性的黑白样本。