[发明专利]一种基于图神经网络的网络爬虫检测方法、系统及装置在审

专利信息
申请号: 202010573565.4 申请日: 2020-06-22
公开(公告)号: CN111858929A 公开(公告)日: 2020-10-30
发明(设计)人: 洪镇宇;黄梅芬 申请(专利权)人: 网宿科技股份有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06N3/04;G06N3/08;H04L12/26
代理公司: 北京华智则铭知识产权代理有限公司 11573 代理人: 陈刚
地址: 200030 上海市徐汇*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 神经网络 网络 爬虫 检测 方法 系统 装置
【说明书】:

发明公开了一种基于图神经网络的网络爬虫检测方法、系统及装置,其中,所述方法包括:获取网络会话样本,所述网络会话样本中包括访问的各个资源;提取所述网络会话样本中各个所述资源的资源特征,所述资源特征包括所述资源在网站中体现的固有特征和/或用户访问所述资源的会话特征;基于提取的所述资源特征,构建所述网络会话样本的资源图,并利用预设图算法对构建的所述资源图进行训练,以通过训练得到的分类模型检测网络爬虫。本申请提供的技术方案,能够提高网络爬虫的检测效率。

技术领域

本发明涉及互联网技术领域,特别涉及一种基于图神经网络的网络爬虫检测方法、系统及装置。

背景技术

随着互联网技术的不断发展,网络爬虫的泛滥也成为互联网中日趋严重的问题,据统计,有些网站一半以上的流量都来自网络爬虫。目前,针对网络爬虫的检测方法也在不断完善,例如,可以利用统计学特征对网站的流量进行分析,从而识别出流量中的网络爬虫。此外,还可以借助于深度学习的算法,将用户的访问请求转换为时间序列的问题进行分析,从而识别出哪些访问行为其实是网络爬虫发起的。

然而,现有的网络爬虫的检测方法,通常只能对固定时间长度的数据进行分析,如果数据的序列过长,则需要对数据进行分割之后再进行处理,这样无疑会降低网络爬虫的检测效率。

发明内容

本申请的目的在于提供一种基于图神经网络的网络爬虫检测方法、系统及装置,能够提高网络爬虫的检测效率。

为实现上述目的,本申请一方面提供一种基于图神经网络的网络爬虫检测方法,所述方法包括:获取网络会话样本,所述网络会话样本中包括访问的各个资源;提取所述网络会话样本中各个所述资源的资源特征,所述资源特征包括所述资源在网站中体现的固有特征和/或用户访问所述资源的会话特征;基于提取的所述资源特征,构建所述网络会话样本的资源图,并利用预设图算法对构建的所述资源图进行训练,以通过训练得到的分类模型检测网络爬虫。

为实现上述目的,本申请另一方面还提供一种基于图神经网络的网络爬虫检测系统,所述系统包括:会话样本获取单元,用于获取网络会话样本,所述网络会话样本中包括访问的各个资源;特征提取单元,用于提取所述网络会话样本中各个所述资源的资源特征,所述资源特征包括所述资源在网站中体现的固有特征和/或用户访问所述资源的会话特征;资源图训练单元,用于基于提取的所述资源特征,构建所述网络会话样本的资源图,并利用预设图算法对构建的所述资源图进行训练,以通过训练得到的分类模型检测网络爬虫。

为实现上述目的,本申请另一方面还提供一种基于图神经网络的网络爬虫检测装置,所述基于图神经网络的网络爬虫检测装置包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现上述的基于图神经网络的网络爬虫检测方法。

由上可见,本申请一个或者多个实施方式提供的技术方案,可以针对网络会话样本中的资源进行分析,从而判断网络会话样本是否由网络爬虫发起的。具体地,可以提取待分析的各个资源的资源特征,该资源特征除了可以包括资源在网站中的固有特征,还可以包含用户访问该资源时产生的会话特征。针对提取的资源特征,可以构建该网络会话样本的资源图。通过预设图算法对构建的资源图进行训练,可以训练出基于图神经网络的分类模型。后续,利用该分类模型,可以便捷地检测出由网络爬虫发起的网络会话。由于采用了图的形式,因此可以很好地兼顾长文本和短文本,输入分类模型的数据不再有上限和下限的限制,进而提高了网络爬虫的检测效率。

附图说明

为了更清楚地说明本发明实施方式中的技术方案,下面将对实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施方式中网络爬虫的检测方法流程图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网宿科技股份有限公司,未经网宿科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010573565.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top