[发明专利]基于特征匹配的I2P流量识别方法及系统有效
申请号: | 202110075986.9 | 申请日: | 2021-01-20 |
公开(公告)号: | CN112910797B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 景全亮;范鑫鑫;毕经平;武超;雷蕾 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | H04L47/2483 | 分类号: | H04L47/2483;H04L69/22;H04L67/14 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 匹配 i2p 流量 识别 方法 系统 | ||
本发明提出一种基于特征匹配的I2P流量识别方法及系统,包括:获取待识别的流量文件,提取该流量文件中会话建立过程的载荷序列;判断该会话建立过程的载荷序列是否符合预设特征规则,若是,则判定该流量文件为确信I2P流量,否则该流量文件为其他流量,该预设特征规则包括:载荷序列中位置为1的报文长度等于288;载荷序列中位置为2的报文长度等于304;载荷序列中位置为3的报文长度大于等于488;载荷序列中位置为4的报文长度大于等于48。本发明利用基于规则的方式改进了原有算法基于长度序列匹配的执行效率。
技术领域
本发明涉及网络通信中报文识别领域,并特别涉及一种基于特征匹配的I2P流量识别方法及系统。
背景技术
近年来,随着互联网技术飞速发展,海量信息数据通过互联网进行传输。匿名通信技术作为保护用户隐私与个人信息数据安全的工具,得到了广泛关注。匿名通信技术通常利用内容加密、多跳转发、流量混淆等手段实现通信数据和通信关系的匿名化,保护通信双方的通信关系与通信内容。
匿名通信技术在保护用户隐私的同时,也在被不法分子利用,成为各类违法活动的温床。其中,利用匿名通信技术部署的隐藏网络服务,形成了臭名昭著的暗网。暗网中充斥着各类非法活动,包括毒品交易、军火买卖、色情信息、黑客攻击等。这类活动严重影响社会治安与国家安全,亟需通过技术手段来加强对其的监管,而暗网报文识别算法正是设计监管系统的基础。
I2P作为当前主流的匿名通信工具,依靠大蒜路由技术实现通信的匿名性。使用大蒜路由技术的通信双方均使用多跳单向加密隧道进行通信,通信隧道中的每一跳节点只掌握相邻节点的信息,无法获知通信双方的通信关系。目前,I2P报文识别算法多为基于I2P流量包特征、流特征匹配的识别算法。例如《基于I2P的匿名通信协议分析与流量检测的研究》采用基于载荷长度熵过滤及载荷长度序列过滤的方法来过滤未知流量并识别I2P流量。该方法的核心思路是提取I2P会话中流长度熵特征及载荷序列特征,利用贝叶斯网络统计学习算法来识别I2P报文。其中,载荷序列特征为I2P会话密钥交互过程中的流量上下行关系,以↑表示上行网络数据长度,↓表示下行网络数据长度,I2P会话建立过程中会出现“↑288↓304↑448↓48”、“↑288↓304↑464↓48”等固定载荷序列。流长度熵特征的计算方法主要有两步:(1)统计当前会话中各数据包的报文长度,按报文长度,该长度出现次数进行聚合,之后计算某报文长度出现次数占数据包总数的比率p(Ai),例如,A会话中共含20个数据包,长度为334的数据包出现次数为3,则p(A334)=15%,形成当前会话的数据包长度分布;(2)计算会话A与各已识别会话的数据包长度分布的相对熵,公式如下:
若相对熵超过阈值,则标记该会话为I2P会话。
现有技术主要存在两点不足:
(1)未能充分利用会话上下行流量特征:现有技术将会话建立过程总结为上下行长度序列,未能充分考虑到密钥交换过程中的具体的程序执行逻辑,例如在会话确认Session Confirm阶段,形成诸如448Byte长度、464Byte长度的报文的原因为当报文的识别标志signature字段长度为0、16Byte时,结合其他固定长度字段,报文总长度为448Byte长度、464Byte长度,应考虑构建规则集的形式,完成对于上下行流量特征的匹配;
(2)未能充分利用netDB信息:netDB为I2P网络中的网络数据库,其为通信节点提供的RouterInfo信息中包含其他通信节点的端口、IP、通信协议、公钥、签名、更新时间等信息。且RouterInfo信息可以通过I2P自身的补种机制获得,所以在报文识别算法中,若结合I2P自身网络节点信息,可以极大的提升算法识别的效率。
(3)基于会话流长度熵特征的算法复杂度过高,算法执行效率低。会话A需要与每一条已识别会话计算相对熵值,在未识别会话流与已识别会话流数量较大的条件下,其所需内存较大、CPU计算量较高。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110075986.9/2.html,转载请声明来源钻瓜专利网。