[发明专利]一种基于行为平衡度的垂直类网络爬虫检测识别方法有效
申请号: | 202011306830.9 | 申请日: | 2020-11-19 |
公开(公告)号: | CN112398864B | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 刘兰;刘浪洲;何康健 | 申请(专利权)人: | 广东技术师范大学 |
主分类号: | H04L9/40 | 分类号: | H04L9/40 |
代理公司: | 广州市深研专利事务所(普通合伙) 44229 | 代理人: | 陈雅平 |
地址: | 510665 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 行为 平衡 垂直 网络 爬虫 检测 识别 方法 | ||
1.一种基于行为平衡度的垂直类网络爬虫检测识别方法,其特征包含以下步骤:
第一步:构建测试网站;
第二步:建立基于网站页面信息量的合理阅读停滞时间模型并优化至最佳;
第三步:建立不同跃迁深度访问的行为平衡度模型并优化至最佳;
第四步:计算出的每次浏览行为的总平衡度,完成流量分类识别;
第一步的具体实施如下:
(1)在测试服务器集群上部署测试网站;
(2)为更好的测试,降低机器性能对实验数据的影响,将所有网站作静态化处理,生成不同页面信息量的目标网站;
第二步的具体实施如下:
(1)为测试网站的每一个信息节点插入时间标记函数Time_tick,该函数作用为记录当前浏览信息节点的停留时间,并在离开时再次生成一个时间戳;
(2)通过初步采集的数据,建立基于网站页面信息量的合理阅读停滞时间初步模型;
(3)再次收集页面阅读数据,调整相关参数,得出最优的基于页面信息量的合理阅读停滞时间模型;
第三步的具体实施如下:
(1)组织实验测试人员,对测试网站进行有针对性的信息获取,同时编写垂直类爬虫脚本,针对测试网站进行相同信息获取;
(2)设置旁路服务器,采集所有的流量行为;
(3)计算出所产生的每一次信息获取产生的行为总平衡度;
(4)引入通过多次对比数据,调整页面深度与跳转因子的权值,优化参数,最终得出最佳的平衡度计算模型;
第四步的具体实施如下:
(1)计算出每次信息获取行为所产生的行为总平衡度Dindividual,与通过模型计算出的理论合理行为平衡度Dstandard进行计算,Ddiff=|Dindividual-Dstandard|,当Ddiff大于1时,则说明该流量为垂直类爬虫流量;
其中,
一,基于网站页面信息量的合理停滞时间建模过程为:
1.1对网页页面的文本信息,统计总字符数,单位为百,记为i,i∈(1,10);
1.2对网页页面的图片信息,统计总像素值,单位为十万像素,记为j,j∈(1,10);
1.3对网站页面的可交互操作,统计总次数,记为k,k∈(1,10);
1.4根据科学研究,人眼对文本信息的阅读速率为10字/秒,记为vi;
1.5根据科学研究,人眼对图片信息的阅读速度为10万像素/秒,记为vj;
1.6可交互的执行操作平均时间为1秒/次,引入操作复杂度因子sk∈(1,10);
1.7根据下式可得网站页面数据量理论停留时间(Time on site)Tos=i×vi+j×vj+k×sk,然后进行归一化处理,
二,基于不同跃迁深度访问的行为平衡度建模过程为:
2.1将网站抽象成一颗n叉不平衡树,其根为index主页,其树节点为子页面,网站深度一般为5层;
2.2我们将从index页面的所有同级子页面,分别记为p1,p2,p3…pn,记为第一层页面,其总页面数量为n;
2.3将从p1页面链入的所有同级子页面分别记为p11,p12,p13…p1i,则第二层的所有同级页面数量为n×i;
2.4将从p11页面链入的所有同级子页面分别记为p111,p112,p113...p11j,则第三层的所有同级页面数量为n×i×j;
2.5将从p111页面链入的所有同级子页面分别记为p1111,p1112,p1113...p111k,则第四层的所有同级页面数量为n×i×j×k;
2.6将从P1111页面链入的所有同级子页面分别记为p11111,p11112,p11113...p1111m,则第五层所有同级页面数量为n×i×j×k×m;
2.7将网站的一次浏览行为抽象成对一颗n叉不平衡树的一次深度遍历;
2.8将同层级的页面链入跳转的行为平衡因子记为α,其值恒为1,将上层向下层跃迁跳转的行为平衡因子记为β,β=T×0.5;
2.9从而,根据下式得到一次浏览行为的总平衡度为
然后进行归一化处理,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范大学,未经广东技术师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011306830.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种食品加工用烘干装置
- 下一篇:一种钢板高效印刷装置