[发明专利]一种基于行为平衡度的垂直类网络爬虫检测识别方法有效

专利信息
申请号: 202011306830.9 申请日: 2020-11-19
公开(公告)号: CN112398864B 公开(公告)日: 2022-08-30
发明(设计)人: 刘兰;刘浪洲;何康健 申请(专利权)人: 广东技术师范大学
主分类号: H04L9/40 分类号: H04L9/40
代理公司: 广州市深研专利事务所(普通合伙) 44229 代理人: 陈雅平
地址: 510665 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 行为 平衡 垂直 网络 爬虫 检测 识别 方法
【说明书】:

一种基于行为平衡度的垂直类网络爬虫检测识别方法,属于计算机软件的技术领域。垂直类网络爬虫是一种针对网站数据进行定点定向爬取的网络程序,相比于传统的网络爬虫,这种爬虫的行为模式更加隐秘,对网站服务器资源占用较低,但是其行为会严重危害到网站的信息安全,造成极大的数字资产损失。现有的网络爬虫检测方式对高频恶意爬虫流量检测效果明显,对垂直类爬虫检测效果不佳,识别准确率较低。因此,本发明提出一种基于行为平衡度的垂直类网络爬虫检测识别方法,具体包括:(1)基于网站页面信息量的合理停滞时间建模;(2)基于不同跃迁深度访问的行为平衡度建模。

技术领域

本发明属于计算机网络流量分类识别领域,具体涉及一种基于行为平衡度的垂直类网络爬虫检测识别方法。

技术背景

随着信息时代的发展,人们留存在互联网信息越来越多,原本零散存在的信息,现通过使用垂直类爬虫定向爬取,会导致个人信息的泄露与电信欺骗。对于网站来说,垂直类爬虫可以批量化的定向采集网站高价值信息,这会导致网站沉淀多年的数字资产,在短期的时间内以极高的速率流失,给企业经营带来不可估计的损失与影响。

垂直类网络爬虫是网络爬虫的一个新兴分支,相比传统的网络爬虫,这种垂直类网络爬虫,其机器特征更小,拟人度更高。由于单个垂直类爬虫获取的信息任务量不高,故此类爬虫在爬取数据时,会以较慢的速率采集信息,不使用多线程等明显增加服务器压力的暴力方法,综合起来,即该类爬虫没有显性的恶意特征。

发明内容

现有的基于恶意特征识别的流量检测技术,对此类爬虫识别效果不佳,为此,本发明通过研究发现垂直类爬虫的行为具有明显的不平衡性,提出一种基于行为平衡度的垂直类网络爬虫识别检测方法,来检测出网站访问流量中的垂直类爬虫流量。

本发明的目的是为了解决在网络访问流量中对缺乏恶意特征的垂直类爬虫流量检测识别问题,提出了一种基于行为平衡度的垂直类网络爬虫检测识别方法,该方法通过研究网站页面数据量与阅读停留时间的关系,发现垂直类网络爬虫在访问页面数据时,与自然人访问行为对比,具有明显的不平衡性,依此特性建立针对垂直类网络爬虫的流量检测方法。具体包括:(1)基于网站页面信息量的合理停滞时间建模,(2)基于不同跃迁深度访问的行为平衡度建模。

本发明的技术方案如下:

1,基于网站页面信息量的合理停滞时间建模

1.1对网页页面的文本信息,统计总字符数,单位为百,记为i,i∈(1,10)

1.2对网页页面的图片信息,统计总像素值,单位为十万像素,记为j,j∈(1,10)

1.3对网站页面的可交互操作,统计总次数,记为k,k∈(1,10)

1.4根据科学研究,人眼对文本信息的阅读速率为10字/秒,记为vi

1.5根据可续研究,人眼对图片信息的阅读速度为10万像素/秒,记为vj

1.6可交互的执行操作平均时间为1秒/次,引入操作复杂度因子sk∈(1,10)

1.7于是可得网站页面数据量理论停留时间(Time on site),Tos=i×vi+j×vj+k×sk,进行归一化处理,

2,基于不同跃迁深度访问的行为平衡度建模

2.1将网站抽象成一颗n叉不平衡树,其根为index主页,其树节点为子页面,网站深度一般为5层。

2.2我们将从index页面的所有同级子页面,分别记为p1,p2,p3…pn。记为第一层页面,其总页面数量为n。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范大学,未经广东技术师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011306830.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top