[发明专利]一种基于图神经网络的网络爬虫检测方法、系统及装置在审
申请号: | 202010573565.4 | 申请日: | 2020-06-22 |
公开(公告)号: | CN111858929A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 洪镇宇;黄梅芬 | 申请(专利权)人: | 网宿科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08;H04L12/26 |
代理公司: | 北京华智则铭知识产权代理有限公司 11573 | 代理人: | 陈刚 |
地址: | 200030 上海市徐汇*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 网络 爬虫 检测 方法 系统 装置 | ||
1.一种基于图神经网络的网络爬虫检测方法,其特征在于,所述方法包括:
获取网络会话样本,所述网络会话样本中包括访问的各个资源;
提取所述网络会话样本中各个所述资源的资源特征,所述资源特征包括所述资源在网站中体现的固有特征和/或用户访问所述资源的会话特征;
基于提取的所述资源特征,构建所述网络会话样本的资源图,并利用预设图算法对构建的所述资源图进行训练,以通过训练得到的分类模型检测网络爬虫。
2.根据权利要求1所述的方法,其特征在于,获取网络会话样本包括:
获取目标网站的当前网络会话,并解析所述当前网络会话中包含的各个候选资源;
根据所述目标网站的业务需求,从所述各个候选资源中选择目标资源,并将选择的所述目标资源作为网络会话样本中包含的资源。
3.根据权利要求1所述的方法,其特征在于,所述固有特征至少包括资源标识,所述固有特征还包括资源的访问热度、资源的内容类型、资源的信息量、资源的功能属性中的一种;所述会话特征包括资源访问间隔时长、资源或者页面的停留时长、网络会话中的访问序列、用户权项的变化情况、资源访问次数中的一种。
4.根据权利要求1或3所述的方法,其特征在于,在提取所述网络会话样本中各个所述资源的资源特征之后,所述方法还包括:
识别所述资源特征的数值类型,若所述数值类型表征连续型数据,对所述资源特征进行标准化和归一化处理;若所述数值类型表征离散型数据,将所述资源特征转换为特征向量。
5.根据权利要求4所述的方法,其特征在于,在将所述资源特征转换为特征向量时,若对所述资源特征进行标签编码,将标签编码后的数据通过嵌入层转换为特征向量。
6.根据权利要求1所述的方法,其特征在于,构建所述网络会话样本的资源图包括:
在所述网络会话样本中确定主要资源和辅助资源,并生成所述主要资源相对应的主节点;
确定所述辅助资源的表现形式,并在待构建的资源图中生成与所述表现形式相匹配的内容;
在所述待构建的资源图中添加节点边,以构建所述网络会话样本的资源图。
7.根据权利要求6所述的方法,其特征在于,生成所述主要资源相对应的主节点包括:
若所述网络会话样本中包括多个重复的目标主要资源,针对重复的所述目标主要资源,仅生成一个对应的主节点;
或者
若所述网络会话样本中包括多个重复的目标主要资源,针对每个重复的所述目标主要资源,分别生成对应的主节点。
8.根据权利要求6或7所述的方法,其特征在于,在生成所述主要资源相对应的主节点之后,所述方法还包括:
判断所述主要资源在待建构的资源图中是否具备唯一性,若具备唯一性,在所述主要资源对应的主节点中添加所述主要资源的固有特征,并添加会话特征中表征累计量的会话特征;
若不具备唯一性,在所述主要资源对应的主节点中添加所述主要资源的固有特征,并添加会话特征中表征用户操作行为的会话特征。
9.根据权利要求6所述的方法,其特征在于,生成与所述表现形式相匹配的内容包括:
若所述辅助资源的表现形式为附属形式,确定与所述辅助资源同时触发的目标主要资源,并将所述辅助资源的资源特征作为附属特征,添加至所述目标主要资源的主节点中。
10.根据权利要求6所述的方法,其特征在于,生成与所述表现形式相匹配的内容包括:
若所述辅助资源的表现形式为主节点形式,生成所述辅助资源对应的主节点;若所述辅助资源的表现形式为副节点形式,生成所述辅助资源对应的副节点,并将所述副节点连接至与所述辅助资源同时触发的主要资源的主节点上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网宿科技股份有限公司,未经网宿科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010573565.4/1.html,转载请声明来源钻瓜专利网。