[发明专利]一种基于行为平衡度的垂直类网络爬虫检测识别方法有效

专利信息
申请号: 202011306830.9 申请日: 2020-11-19
公开(公告)号: CN112398864B 公开(公告)日: 2022-08-30
发明(设计)人: 刘兰;刘浪洲;何康健 申请(专利权)人: 广东技术师范大学
主分类号: H04L9/40 分类号: H04L9/40
代理公司: 广州市深研专利事务所(普通合伙) 44229 代理人: 陈雅平
地址: 510665 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 行为 平衡 垂直 网络 爬虫 检测 识别 方法
【权利要求书】:

1.一种基于行为平衡度的垂直类网络爬虫检测识别方法,其特征包含以下步骤:

第一步:构建测试网站

第二步:建立基于网站页面信息量的合理阅读停滞时间模型并优化至最佳;

第三步:建立不同跃迁深度访问的行为平衡度模型并优化至最佳;

第四步:计算出的每次浏览行为的总平衡度,完成流量分类识别;

第一步的具体实施如下:

(1)在测试服务器集群上部署测试网站;

(2)为更好的测试,降低机器性能对实验数据的影响,将所有网站作静态化处理,生成不同页面信息量的目标网站;

第二步的具体实施如下:

(1)为测试网站的每一个信息节点插入时间标记函数Time_tick,该函数作用为记录当前浏览信息节点的停留时间,并在离开时再次生成一个时间戳;

(2)通过初步采集的数据,建立基于网站页面信息量的合理阅读停滞时间初步模型;

(3)再次收集页面阅读数据,调整相关参数,得出最优的基于页面信息量的合理阅读停滞时间模型;

第三步的具体实施如下:

(1)组织实验测试人员,对测试网站进行有针对性的信息获取,同时编写垂直类爬虫脚本,针对测试网站进行相同信息获取;

(2)设置旁路服务器,采集所有的流量行为;

(3)计算出所产生的每一次信息获取产生的行为总平衡度;

(4)引入通过多次对比数据,调整页面深度与跳转因子的权值,优化参数,最终得出最佳的平衡度计算模型;

第四步的具体实施如下:

(1)计算出每次信息获取行为所产生的行为总平衡度Dindividual,与通过模型计算出的理论合理行为平衡度Dstandard进行计算,Ddiff=|Dindividual-Dstandard|,当Ddiff大于1时,则说明该流量为垂直类爬虫流量;

其中,

一,基于网站页面信息量的合理停滞时间建模过程为:

1.1对网页页面的文本信息,统计总字符数,单位为百,记为i,i∈(1,10);

1.2对网页页面的图片信息,统计总像素值,单位为十万像素,记为j,j∈(1,10);

1.3对网站页面的可交互操作,统计总次数,记为k,k∈(1,10);

1.4根据科学研究,人眼对文本信息的阅读速率为10字/秒,记为vi

1.5根据科学研究,人眼对图片信息的阅读速度为10万像素/秒,记为vj

1.6可交互的执行操作平均时间为1秒/次,引入操作复杂度因子sk∈(1,10);

1.7根据下式可得网站页面数据量理论停留时间(Time on site)Tos=i×vi+j×vj+k×sk,然后进行归一化处理,

二,基于不同跃迁深度访问的行为平衡度建模过程为:

2.1将网站抽象成一颗n叉不平衡树,其根为index主页,其树节点为子页面,网站深度一般为5层;

2.2我们将从index页面的所有同级子页面,分别记为p1,p2,p3…pn,记为第一层页面,其总页面数量为n;

2.3将从p1页面链入的所有同级子页面分别记为p11,p12,p13…p1i,则第二层的所有同级页面数量为n×i;

2.4将从p11页面链入的所有同级子页面分别记为p111,p112,p113...p11j,则第三层的所有同级页面数量为n×i×j;

2.5将从p111页面链入的所有同级子页面分别记为p1111,p1112,p1113...p111k,则第四层的所有同级页面数量为n×i×j×k;

2.6将从P1111页面链入的所有同级子页面分别记为p11111,p11112,p11113...p1111m,则第五层所有同级页面数量为n×i×j×k×m;

2.7将网站的一次浏览行为抽象成对一颗n叉不平衡树的一次深度遍历;

2.8将同层级的页面链入跳转的行为平衡因子记为α,其值恒为1,将上层向下层跃迁跳转的行为平衡因子记为β,β=T×0.5;

2.9从而,根据下式得到一次浏览行为的总平衡度为

然后进行归一化处理,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范大学,未经广东技术师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011306830.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top