[发明专利]一种基于隐马尔可夫模型的恶意网络爬虫检测方法在审
申请号: | 201710281763.1 | 申请日: | 2017-04-26 |
公开(公告)号: | CN106961444A | 公开(公告)日: | 2017-07-18 |
发明(设计)人: | 罗日红;蔡君 | 申请(专利权)人: | 广东亿荣电子商务有限公司;广东技术师范学院 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/24;H04L29/08;G06F17/30 |
代理公司: | 广州市深研专利事务所44229 | 代理人: | 陈雅平 |
地址: | 510000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于隐马尔可夫模型的恶意网络爬虫检测方法,属于计算机软件的技术领域。恶意网络爬虫在未经允许的情况下恶意抓取网站的敏感信息以及隐私数据,同时其野蛮式的流量行为模式也会对网站的服务质量造成不良的影响。现有网络爬虫检测方法不能准确地识别出恶意网络爬虫,误判率较高。因此,本发明提出一种新的基于隐马尔可夫模型的恶意网络爬虫检测方法,具体包括(1)基于HMM的用户HTTP流量建模,(2)基于HTTP的网络爬虫行为建模。 | ||
搜索关键词: | 一种 基于 隐马尔可夫 模型 恶意 网络 爬虫 检测 方法 | ||
【主权项】:
一种基于隐马尔可夫模型的恶意网络爬虫检测方法,其特征是,HTTP流量行为模型的构建方法1.1基本定义:观测值:以HTTP请求的资源类型为观测值,则HTTP流量的观测序列表示为其中表示第c个连接在t时刻请求的资源类型。观测值空间为:V={1,2,...,N};状态值为t时刻连接c请求的页面,表示为y=y1,y2,...yT,状态值空间为S={1,2,...,M};HTTP流量行为的参数模型表示为:θ={π,A,B},其中,π为初始模型的初始状态概率,A为状态转移概率,B为观测概率;1.2基于前向后向算法的HTTP流量行为模型的参数估计技术HTTP流量行为模型参数估计任务是由采集到的观测值序列估计出对应的隐半马尔可夫模型的参数;本发明采用著名的前向后向算法解决HTTP流量行为模型的参数估计问题,具体如下所述;1)定义前向后向变量:αt(j)=P[St=j,o1:t|θ]βt(j)=P[ot+1:T|St=j,θ]2)前向后向算法的初始化:α1(j)=πj,βT(j)=1;3)迭代推导过程:4)计算中间变量:ξt(i,j)=P[St=i,St+1=j,o1:T|λ]=αt(i)aijbj(ot+1)βt+1(j)5)参数更新公式其中,当ot=vk时,I(ot=vk)=1,否则I(ot=vk)=0;1.3网络爬虫的检测方法HTTP流量包括了一般用户的HTTP流量以及网络爬虫的HTTP流量,要检测恶意网络爬虫流量,首先要把网络爬虫流量和一般用户的流量分离,为此本发明专利通过异常检测的方法来识别网络爬虫流量。计算一般用户的HTTP流量行为模型观测序列的熵:计算一般用户的HTTP流量的观测序列的熵的标准方差为σ0,均值为μ0,检测网络爬虫时,首先计算监测序列的熵的均值为μ,再以|μ‑μ0|为异常检测量,如果|μ‑μ0|≥3σ0,则为异常状态。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东亿荣电子商务有限公司;广东技术师范学院,未经广东亿荣电子商务有限公司;广东技术师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710281763.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种报文的过滤方法及装置
- 下一篇:基于FPGA硬件并行流水线的报文解析装置