[发明专利]一种基于隐马尔可夫模型的恶意网络爬虫检测方法在审

专利信息
申请号: 201710281763.1 申请日: 2017-04-26
公开(公告)号: CN106961444A 公开(公告)日: 2017-07-18
发明(设计)人: 罗日红;蔡君 申请(专利权)人: 广东亿荣电子商务有限公司;广东技术师范学院
主分类号: H04L29/06 分类号: H04L29/06;H04L12/24;H04L29/08;G06F17/30
代理公司: 广州市深研专利事务所44229 代理人: 陈雅平
地址: 510000 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出一种基于隐马尔可夫模型的恶意网络爬虫检测方法,属于计算机软件的技术领域。恶意网络爬虫在未经允许的情况下恶意抓取网站的敏感信息以及隐私数据,同时其野蛮式的流量行为模式也会对网站的服务质量造成不良的影响。现有网络爬虫检测方法不能准确地识别出恶意网络爬虫,误判率较高。因此,本发明提出一种新的基于隐马尔可夫模型的恶意网络爬虫检测方法,具体包括(1)基于HMM的用户HTTP流量建模,(2)基于HTTP的网络爬虫行为建模。
搜索关键词: 一种 基于 隐马尔可夫 模型 恶意 网络 爬虫 检测 方法
【主权项】:
一种基于隐马尔可夫模型的恶意网络爬虫检测方法,其特征是,HTTP流量行为模型的构建方法1.1基本定义:观测值:以HTTP请求的资源类型为观测值,则HTTP流量的观测序列表示为其中表示第c个连接在t时刻请求的资源类型。观测值空间为:V={1,2,...,N};状态值为t时刻连接c请求的页面,表示为y=y1,y2,...yT,状态值空间为S={1,2,...,M};HTTP流量行为的参数模型表示为:θ={π,A,B},其中,π为初始模型的初始状态概率,A为状态转移概率,B为观测概率;1.2基于前向后向算法的HTTP流量行为模型的参数估计技术HTTP流量行为模型参数估计任务是由采集到的观测值序列估计出对应的隐半马尔可夫模型的参数;本发明采用著名的前向后向算法解决HTTP流量行为模型的参数估计问题,具体如下所述;1)定义前向后向变量:αt(j)=P[St=j,o1:t|θ]βt(j)=P[ot+1:T|St=j,θ]2)前向后向算法的初始化:α1(j)=πj,βT(j)=1;3)迭代推导过程:4)计算中间变量:ξt(i,j)=P[St=i,St+1=j,o1:T|λ]=αt(i)aijbj(ot+1)βt+1(j)5)参数更新公式其中,当ot=vk时,I(ot=vk)=1,否则I(ot=vk)=0;1.3网络爬虫的检测方法HTTP流量包括了一般用户的HTTP流量以及网络爬虫的HTTP流量,要检测恶意网络爬虫流量,首先要把网络爬虫流量和一般用户的流量分离,为此本发明专利通过异常检测的方法来识别网络爬虫流量。计算一般用户的HTTP流量行为模型观测序列的熵:计算一般用户的HTTP流量的观测序列的熵的标准方差为σ0,均值为μ0,检测网络爬虫时,首先计算监测序列的熵的均值为μ,再以|μ‑μ0|为异常检测量,如果|μ‑μ0|≥3σ0,则为异常状态。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东亿荣电子商务有限公司;广东技术师范学院,未经广东亿荣电子商务有限公司;广东技术师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710281763.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top