[发明专利]一种基于PHMM的匿名网络溯源方法有效
申请号: | 201910538006.7 | 申请日: | 2019-06-20 |
公开(公告)号: | CN110363023B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 凌捷;赖琦;谢锐 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 phmm 匿名 网络 溯源 方法 | ||
1.一种基于PHMM的匿名网络溯源方法,其特征在于,包括以下步骤:
S1:收集每次访问网站、超链接、外部链接和内部链接时产生的数据并对获取的数据序列化;
S2:提取S1中序列化后的数据的特征,得到提取特征;
S3:将S2得到的提取特征生成PHMM,并生成HMM数据库;
S4:对匿名用户采集用户数据,并将用户数据序列化;
S5:查询HMM数据库判断用户数据为哪类,确认匿名用户所访问网站;
步骤S1具体包括以下步骤:
S1.1:对m个网站进行数据采集,每个网站访问n次,数据表示如下:
Ti=di1,di2,…dil,
式中,其中dik=±sik,Ti代表第i个实例访问某一网站所产生的向量序列,l表示数据包的个数,“+”、“–”来表示数据包传输的方向;sik表示第i个实例的第k个数据包大小;
S1.2:往每次访问网站时所获取的数据包个数中填充数据包使得数据包个数相同;
S1.3:对步骤S1.2后获得的数据用db4进行三层分解得到近似分量T3i;
S1.4:使用mallat算法对近似分量T3i进行单支重构,得到Ti’;
S1.5:用字母表示Ti’序列,用字母A表示“-”,用字母B表示“+”,选取用字母C表示1490-1500数据包大小,依次用字母表示0-10,生成一个字母序列;
S1.6:用步骤S1.1至步骤S1.5的方法对访问超链接、外部链接和内部链接时产生的数据进行处理。
2.根据权利要求1所述的基于PHMM的匿名网络溯源方法,其特征在于,步骤S1中,对获取的数据序列化的过程中过滤了对序列学习没有用的数据,包括有效负载长度为零的SYN和ACK。
3.根据权利要求1所述的基于PHMM的匿名网络溯源方法,其特征在于,步骤S1.2中填充的数据包大小为0,使得数据包个数达到2048。
4.根据权利要求1所述的基于PHMM的匿名网络溯源方法,其特征在于,步骤S2中对访问同一网站的n组序列做多序列对比,得出相同序列部分,以此作为该网站的特征,对该网站访问超链接、外部链接和内部链接产生序列提取特征,作为在该网站的特征之一。
5.根据权利要求4所述的基于PHMM的匿名网络溯源方法,其特征在于,使用clustalO做多序列对比。
6.根据权利要求4所述的基于PHMM的匿名网络溯源方法,其特征在于,步骤S3中使用PHMMER工具建立PHMM,PHMM的建立需要设置三个参数(A,B,Π),A为状态转移矩阵,由下式计算所得:
B为观测矩阵,由下式计算所得:
Π为初始矩阵,采用启发式规则计算所得;
使用hmmpress指令,将A,B,Π格式化为HMM数据格式,生成HMM数据库。
7.根据权利要求1至6任一项所述的基于PHMM的匿名网络溯源方法,其特征在于,步骤S5中使用hmmscan指令查询用户所访问网站。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910538006.7/1.html,转载请声明来源钻瓜专利网。