[发明专利]加密流量分析特征提取方法、系统、存储介质、安全设备有效
申请号: | 202010038670.8 | 申请日: | 2020-01-14 |
公开(公告)号: | CN111277578B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 赵兴文;丁潇;李晖;朱辉;戴睿;萧明炽 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06K9/62;G06N20/00 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 加密 流量 分析 特征 提取 方法 系统 存储 介质 安全设备 | ||
1.一种加密流量分析特征提取方法,其特征在于,所述加密流量分析特征提取方法包括以下步骤:
第一步,采集原始流量数据;
第二步,将采集的原始数据包进行预处理,过滤出加密通信的流量数据;
第三步,将流数据深度解析,生成流量解析日志,其中包括通用流日志、SSL/TLS日志、证书日志,并建立相应的调用链连接索引;
第四步,按照连接四元组信息和各日志中的索引信息将日志聚合,形成流特征调用链,并依据此调用链进行特征提取,形成供机器学习训练的数据集;
第五步,确定当前环境下最优的监督学习分类算法,利用网格参数寻优法确定最优参数并利用十折交叉验证法评估特征提取准确性;
所述加密流量分析特征提取方法的数据流是一组有序的,由起点和终点的数据序列,数据流由一个完整的TCP会话构成,包含了TCP三次握手到四次挥手之间所有的数据包;在一个流中,同方向的数据包的IP和端口信息一致,不同方向的数据包的IP和端口信息相反。
2.如权利要求1所述的加密流量分析特征提取方法,其特征在于,所述加密流量分析特征提取方法的基于日志记录的形式,将流中的信息按基本流信息、SSL/TLS协议信息和证书信息分别输出到对应的日志文件中,形成原始的数据结构,日志文件各司其职,并且可单独溯源检索;其中在各日志内相应事件的记录中,使用一串或多串特殊的HASH用于记录调用链的连接索引,一个数据流对应日志中的一次事件;特征提取时,首先按照四元组信息提取通用流日志中的相关记录,再依次按照HASH索引将所有日志进行聚合,将恶意加密流量特征进行汇总整理。
3.如权利要求1所述的加密流量分析特征提取方法,其特征在于,所述加密流量分析特征提取方法的数据流中对应节点的流量行为日志具体包括:
(1)通用流日志:请求时间、源IP地址、源端口号、目的IP地址、目的端口号、传输层协议、应用层协议、数据流持续时间、数据包数量、数据包时间间隔、数据包大小、载荷大小、HASH1;
(2)SSL/TLS日志:数据包时间戳、加密协议、SSL/TLS版本号、TLS密码套件、TLS拓展长度、TLS拓展组件类型、TLS压缩方法、是否含SNI、HASH1、HASH2;
(3)证书日志:数据包时间戳、证书主题、证书序列号、证书常用名称、证书时间有效性、证书公钥长度、证书签名算法、支持域名信息、证书使用者、HASH2。
4.如权利要求1所述的加密流量分析特征提取方法,其特征在于,所述加密流量分析特征提取方法通过日志及调用链数据深度分析不同恶意家族类型的加密流量,找出各节点的流量特征,形成最终的数据集;依据日志分类将特征分为:流特征、SSL/TLS特征、证书特征和其他特征,具体包括:
(1)流特征:会话持续时间、数据包数量、不同方向的数据包数量、数据包时间间隔统计量、不同方向的数据包时间间隔统计量、包长统计量、不同方向的包长统计量、载荷长度统计量、不同方向的载荷长度统计量、总字节数、不同方向的总字节数,以及相应的比例;
(2)SSL/TLS特征:加密协议类型、SSL/TLS版本号、TLS使用的密码套件、TLS拓展长度、TLS拓展组件类型、TLS压缩方法、加密数据包统计量、是否包含SNI、SNI所占包的比例、SNI是IP情况下所占包的比例;
(3)证书特征:证书公钥的统计量、证书有效值的统计量、有效证书所占证书的比例、证书的签发者、证书使用的签名算法、证书支持的域名信息、证书的使用者,证书是否自签名;
(4)其他特征:加密数据包统计量占总数据包的比例,SSL/TLS连接时长所占数据流持续时长的比例;
所述统计量包括平均值、方差、最大值、最小值,不同方向包括从源地址到目的地址、从目的地址到源地址不同的方向。
5.如权利要求1所述的加密流量分析特征提取方法,其特征在于,所述加密流量分析特征提取方法的日志聚合和调用链将获取到的特征信息进行有组织的链接整理,将一个数据流内部的不同协议层所有节点和秘钥交换、数据传输中的关键操作进行记录并汇总;
所述加密流量分析特征提取方法的随机森林算法,对数据进行分类的同时得出各个特征的重要性评分,评估各个特征在分类过程中所起到的作用,并由此调整特征权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010038670.8/1.html,转载请声明来源钻瓜专利网。