[发明专利]一种基于流量学习的终端溯源方法在审
申请号: | 202010038523.0 | 申请日: | 2020-01-14 |
公开(公告)号: | CN111294334A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 祝远鉴;马小玥;朱灿鹏;崔弘 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/953;G06K9/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 程斯佳 |
地址: | 210019 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 流量 学习 终端 溯源 方法 | ||
本发明公开了一种基于流量学习的终端溯源方法,包括:步骤1,提取网络流量中的用于溯源的终端信息以及用于形成机器学习的维度信息;步骤2,对步骤1提取的信息进行预处理;步骤3,建立特征分类器;步骤4,根据提取的终端信息和步骤3得到的特征分类器,经过相关关联策略,让所有数据带上终端信息,完成终端溯源。本发明中的方法,相比于现有已有的主动溯源方法更加简单、更适应于大数据发展、并且可以溯源到终端信息。
技术领域
本发明涉及一种基于流量学习的终端溯源方法。
背景技术
随着互联网和移动互联网的爆发式发展,网络犯罪和网络诈骗也日益增多,并已经成为一个严重的社会问题。随着全球IPV4地址越来越少,NAT转换技术应用越来越广,NAT转换可以将内部网络IP映射到出口IP不同的端口上,从而屏蔽内部网络细节。NAT技术的出现使得针对网络犯罪的溯源难度增加。
目前针对NAT后网络犯罪多采用主动溯源的方式,即找到对应的NAT设备,然后查看转换日志,再做统计分析和溯源。
目前已有的主动溯源方式需要主动查看对应NAT设备的转换日志,但是这种方式有以下诸多缺点:
(1)大多数NAT转换日志具有临时性,查询以前的信息可能已经不存在。
(2)目前的NAT设备网络已经十分复杂,NAT设备内部可能还嵌套多个NAT的子网络,使得主动溯源十分困难。
(3)很多NAT设备架设在公共场所,比如咖啡厅、车站等人员流动性场所,主动溯源无法追踪到犯罪个体。
发明内容
针对现有技术的不足,本发明提供了一种基于流量学习的终端溯源方法,包括如下步骤:
步骤1,提取网络流量中的用于溯源的终端信息以及用于形成机器学习的维度信息;
步骤2,对步骤1提取的信息进行预处理;
步骤3,建立特征分类器;
步骤4,根据提取的终端信息和步骤3得到的特征分类器,经过相关关联策略,让所有数据带上终端信息,完成终端溯源。
步骤1包括:
步骤1-1,提取网络流量中的数据包,对TCP数据包重组:使用会话哈希表解决同时处理多个TCP会话的问题,使用会话哈希算法计算TCP会话哈希值,数据插入到会话哈希表的指定槽位,解决IP包非按序到达和TCP会话重传问题;
步骤1-2,识别协议特征:使用运营商定义或者推荐的端口进行协议识别,按照预先设置好的特征库(需要人为预先设计好,用于匹配报文内容,主要存储特征和提取方法的对应关系)进行特征识别,匹配出报文中的特征字,以便步骤1-3提取关键信息;
步骤1-3,提取关键信息,关键信息包括USERAGENT(HTTP协议中的User-Agent字段)、COOKIE(HTTP协议中的Cookie字段)、时间戳、时间、初始Sequence Num、TTL(TCP中的Time to live)、ID(TCP中的Indentification)、会话信息(包括源IP、宿IP、源端口、宿端口、协议、网络包长)以及终端信息。
步骤1-1包括:
步骤1-1-1,获取网络流量中的会话数据包,一次socket连接的数据流称为一个会话,同一个会话的数据包具有相同的五元组,即源IP:src_ip、目的IP:dst_ip、源端口:src_port、目的端口:dst_port、协议类型:TCP或者UDP;
步骤1-1-2,使用五元组作为参数计算会话数据包的会话hash值,计算公式如下:
hash=(src_ip^dst_ip^src_port^dst_port^proto_type)mod N,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010038523.0/2.html,转载请声明来源钻瓜专利网。