[发明专利]一种基于TCP/IP协议栈指纹的操作系统被动识别方法及系统在审
申请号: | 201911086474.1 | 申请日: | 2019-11-08 |
公开(公告)号: | CN110868409A | 公开(公告)日: | 2020-03-06 |
发明(设计)人: | 石俊峥;熊刚;范鑫磊;苟高鹏;李镇;宋嘉莹;刘梦严 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/24 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 陈艳 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 tcp ip 协议 指纹 操作系统 被动 识别 方法 系统 | ||
1.一种基于TCP/IP协议栈指纹的操作系统被动识别方法,包括以下步骤:
(1)采集待测加密流量数据,通过主被动的方法对数据集中的全部样本完成属性标注;
(2)将元组<IP source,IP destination,Port source,Port destination>作为一次网络会话的唯一标识,并提取每次会话中TCP SYN报文的IP层,TCP层头部参数,TLS ClientHello报文的TLS层头部参数,以及整个会话关于包长和包到达时间相邻差的统计信息,得到特征集;
(3)将上述特征集中的特征数据输入训练完成的操作系统被动识别模型中,得到待测流量客户端的操作系统信息;
其中,
所述操作系统被动识别模型通过下述训练方法得到:
(a)采集不同操作系统类型和版本的加密流量数据作为样本数据集,通过主被动的方法对样本数据集中的全部样本完成属性标注;
(b)对完成标注的流量数据提取流量特征:将元组<IP source,IP destination,Portsource,Port destination>作为一次网络会话的唯一标识,提取每次会话中TCP SYN报文的IP层,TCP层头部参数以及TLS Client Hello报文的TLS层头部参数,得到一次会话的头部字段特征集,并基于整个会话中的包长和包到达时间序列,构建马尔可夫状态转移概率矩阵,得到一次会话的统计类特征集;
(c)将特征集数据作为输入训练LightGBM模型。
2.如权利要求1所述一种基于TCP/IP协议栈指纹的操作系统被动识别方法,其特征在于,采集加密流量数据的操作系统类型包括Windows,MacOS,Linux,Android和iOS。
3.如权利要求2所述一种基于TCP/IP协议栈指纹的操作系统被动识别方法,其特征在于,采集21种操作系统版本类型。
4.如权利要求1所述一种基于TCP/IP协议栈指纹的操作系统被动识别方法,其特征在于,步骤(3)中特征集数据在输入识别模型前还包括预处理:完成缺失数据的填充、数据归一化以及文本特征转化为离散数值特征。
5.如权利要求1所述一种基于TCP/IP协议栈指纹的操作系统被动识别方法,其特征在于,步骤(c)在训练模型时还包括通过K折交叉验证对模型调参优化。
6.如权利要求1所述一种基于TCP/IP协议栈指纹的操作系统被动识别方法,其特征在于,步骤(3)所述操作系统信息包括操作系统类型和版本。
7.一种基于TCP/IP协议栈指纹的操作系统被动识别系统,包括:
数据采集模块:采集待测加密流量数据,通过主被动的方法对数据集中的全部样本完成属性标注;
特征数据提取模块:将元组<IP source,IP destination,Port source,Portdestination>作为一次网络会话的唯一标识,并提取每次会话中TCP SYN报文的IP层,TCP层头部参数,TLS Client Hello报文的TLS层头部参数,以及整个会话关于包长和包到达时间相邻差的统计信息,得到特征集;
识别模块:将提取的特征集数据输入训练完成的操作系统被动识别模型中,得到待测流量客户端的操作系统信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911086474.1/1.html,转载请声明来源钻瓜专利网。