[发明专利]一种基于大数据算法的失陷主机检测方法有效

申请号：	201810611626.4	申请日：	2018-06-14
公开（公告）号：	CN110611636B	公开（公告）日：	2021-12-14
发明（设计）人：	杨育斌;陶彦百;柯宗贵	申请（专利权）人：	蓝盾信息安全技术股份有限公司
主分类号：	H04L29/06	分类号：	H04L29/06;H04L29/12;H04L12/24
代理公司：	宁波高新区核心力专利代理事务所(普通合伙) 33273	代理人：	朱甲子
地址：	510665 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于数据算法失陷主机检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于大数据算法的失陷主机检测方法,该方法基于黑客或者僵尸、木马、蠕虫病毒攻击主机的全过程分析方法；该方法创新式的从黑客或者僵尸、木马或蠕虫病毒攻击主机的全过程出发，细化了攻击的每一个流程步骤，能够更有效的防护针对主机的攻击，降低了传统检测方法的误报率和漏报率，所述方法包括以下步骤：

步骤S1：搭建一个真实的局域网环境，人为的攻击局域网或者种下僵尸、木马、蠕虫中某种病毒，提取的信息包含IP 地址信息、端口信息、流量大小、协议类型、dns域名、记录时间、应答标志、主机日志、请求类型、回答类型、流量发生时间、IPS/IDS日志、入侵审计日志、防火墙日志，并将这些作为负样本数据存储到Hadoop的hdfs中；

步骤S2：基于间歇性连接分析、上下行流量异常分析、隐蔽通道分析、端口异常分析、服务器主动外联行为分析、可疑域名分析、流量异常分析、基于DNS的僵尸网络检测、基于Netflow的僵尸网络检测9个算法模型的需要，提取Netflow、Http、Dns流量，针对这些流量做算法模型的特征工程预处理；

步骤S3：收集实际生产环境的正常数据，提取的信息包含IP 地址信息、端口信息、流量大小、协议类型、dns域名、记录时间、应答标志、主机日志、请求类型、回答类型、流量发生时间、IPS/IDS日志、入侵审计日志、防火墙日志，并将这些数据作为正样本存储到Hadoop的hdfs中；

步骤S4：利用局域网和实际生产环境得到的正负数据样本，将正样本和负样本按照1:1的比例进行混合，经过步骤S2的特征预抽取后，根据间歇性连接分析的模型需求，将保留访问过可疑域名，且请求字节数和下载字节数的总数大于70的数据流，作为循环自相关模型的输送数据；根据上下行流量异常分析的模型需求，将同个时间点、源地址、目的地址、协议的数据流整合为一条，作为基线模型的输送数据；根据隐蔽通道分析的模型需求，将同个时间点、源地址、目的地址、协议的数据流整合为一条，作为基线模型的输送数据；根据端口异常分析的模型需求，将目的地址、目的端口、协议绑定在一起，作为新的特征，作为基线模型的输送数据；根据服务器主动外联行为分析的模型需求，配置对特定的服务器、交换机等不会主动与外网通讯的资产进行标记，存储到数据库中；根据可疑域名分析的模型需求，取域名的第二、第三段作为目标识别段，作为梯度提升树算法的输送数据；根据流量异常分析的模型需求，将同一个十分钟内的数据都归为一个时刻，并且合并在同一时刻，源地址和目的地址相同的数据，作为基线模型的输送数据；根据基于DNS的僵尸网络检测的模型需求，将保留访问过可疑域名的数据流，作为x-means和循环自相关模型的输送数据；根据基于Netflow的僵尸网络检测的模型需求，将保留访问过可疑域名和出现间歇性连接的数据流，作为群组行为模型的输送数据；利用上述输送的数据以及相应的算法模型中学习训练，并调整好算法模型参数；

步骤S5：当某些模型一起发生时，往往会导致主机失陷发生，利用LogisticRegression模型旨在找出这种模型组合；根据步骤S4学习到的模型，以及引入安全设备、威胁情报，重新识别检测局域网机器的病毒；重复识别检测多种病毒，收集不同病毒的算法模型、安全设备、威胁情报的命中结果，以此来作为原始数据学习训练逻辑回归的权重值，得到主机失陷评分体系模型；

步骤S6：为了验证检测模型是否可靠，将混合样本按照7:3的比例划分为训练集和校验集，利用学习训练得到的算法模型对校验集进行检测，根据检测值和数据标签的对比得出准确率和混淆矩阵，以准确率和混淆矩阵来调整参数，使其检测结果更加优秀；为了验证评分模型是否可靠，对局域网实施人为的攻击或者种下僵尸、木马、蠕虫中某种病毒，以命中的模型事件和上报的分数来调整参数，使其评分模型更加优秀；

步骤S7：将检测模型和评分模型放入到实际环境中学习，当检测出黑客攻击或者僵尸、木马、蠕虫中某种病毒时，专家能够对其结果进行进一步确认，当确认是一个黑客攻击或者是僵尸、木马、蠕虫中某种病毒攻击时，将其标记出来，关联相关的数据，依据之前的步骤进行处理，并将结果加入到检测模型和评分模型的训练集中丰富训练样本，使其模型越来越精确，识别效果更加优秀。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于蓝盾信息安全技术股份有限公司，未经蓝盾信息安全技术股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810611626.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于多维度失陷账号的检测方法
下一篇：基于VPN流量牵引的在线网络威胁检测方法及系统

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于大数据算法的失陷主机检测方法有效

专利文献下载