[发明专利]在多个标签页并发访问场景下的暗网网站识别方法及装置在审
申请号: | 202211448375.5 | 申请日: | 2022-11-18 |
公开(公告)号: | CN115879032A | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 李琦;邓欣豪;赵溪远;殷其雷;刘卓涛;徐明伟;徐恪;吴建平 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F18/241 | 分类号: | G06F18/241;G06N3/0464;G06N3/08;H04L9/40 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 并发 访问 场景 网站 识别 方法 装置 | ||
1.一种在多个标签页并发访问场景下的暗网网站识别方法,其特征在于,包括以下步骤:
获取待识别网站被浏览的网络流量包,并提取所述网络流量包中的方向序列特征;
基于多滑动窗口将所述方向序列特征划分为多个子序列特征,将所述多个子序列特征输入神经网络模型提取得到预设模式特征;
利用目标网站识别模型对所述预设模式特征的相关性进行分析,以得到目标网站被访问的概率计算结果;
基于所述概率计算结果和预设的分类模型,得到所述待识别网站中的目标网站识别结果。
2.根据权利要求1所述的方法,其特征在于,所述分类模型包括多个二分类器,所述二分类器用于识别待识别网站中是否包含所述目标网站。
3.根据权利要求1所述的方法,其特征在于,所述基于多滑动窗口将所述方向序列特征划分为多个子序列特征,包括:
将所述方向序列特征拼接得到流量环路特征;
利用多个滑动窗口从不同位置对所述流量环路特征进行分割得到多个子序列特征。
4.根据权利要求1所述的方法,其特征在于,所述神经网络模型包括第一分析模块和第二分析模块;所述将多个子序列特征输入神经网络模型提取得到预设模式特征,包括:
将所述多个子序列特征输入第一分析模块的卷积层和Batch Norm层,输出得到第一局部特征向量,将所述第一局部特征向量与所述多个子序列特征连接后输入第一分析模块的最大池化层,输出得到第一局部模式特征;
将所述第一局部模式特征输入第二分析模块的卷积层和Batch Norm层,输出得到第二局部特征向量,将所述第二局部特征向量与所述第二局部特征向量连接后输入第二分析模块的最大池化层,输出得到第二局部模式特征。
5.根据权利要求4所述的方法,其特征在于,所述目标网站识别模型包括多头top-m注意力层;所述利用目标网站识别模型对所述预设模式特征的相关性进行分析,以得到目标网站被访问的概率计算结果,包括:
基于第二局部模式特征和多头top-m注意力层得到第预设数量个头的投影矩阵,基于所述投影矩阵和第一预设公式得到所述第预设数量个头的输出结果;
基于所述第预设数量个头的输出结果和线性投射函数,并利用第二预设公式得到所述多头top-m注意力层的输出结果;
根据所述多头top-m注意力层的输出结果和预设的网络规则,并利用第三预设公式得到目标网站被访问的概率计算结果。
6.一种在多个标签页并发访问场景下的暗网网站识别装置,其特征在于,包括:
初始特征获取模块,用于获取待识别网站被浏览的网络流量包,并提取所述网络流量包中的方向序列特征;
关键特征提取模块,用于基于多滑动窗口将所述方向序列特征划分为多个子序列特征,将所述多个子序列特征输入神经网络模型提取得到预设模式特征;
访问概率计算模块,用于利用目标网站识别模型对所述预设模式特征的相关性进行分析,以得到目标网站被访问的概率计算结果;
目标网站识别模块,用于基于所述概率计算结果和预设的分类模型,得到所述待识别网站中的目标网站识别结果。
7.根据权利要求6所述的装置,其特征在于,所述分类模型包括多个二分类器,所述二分类器用于识别待识别网站中是否包含所述目标网站。
8.根据权利要求6所述的装置,其特征在于,所述关键特征提取模块,还用于:
将所述方向序列特征拼接得到流量环路特征;
利用多个滑动窗口从不同位置对所述流量环路特征进行分割得到多个子序列特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211448375.5/1.html,转载请声明来源钻瓜专利网。