[发明专利]网页相似子元素的确定方法、装置、设备和存储介质有效

专利信息
申请号: 202010242914.4 申请日: 2020-03-31
公开(公告)号: CN111488544B 公开(公告)日: 2023-02-24
发明(设计)人: 于洋 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F16/958 分类号: G06F16/958;G06F16/951
代理公司: 华进联合专利商标代理有限公司 44224 代理人: 李文渊
地址: 518000 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网页 相似 元素 确定 方法 装置 设备 存储 介质
【说明书】:

本申请涉及一种网页相似子元素的确定方法、装置、设备和存储介质。所述方法包括:在接收到针对目标网页的子元素选择指令时,从目标网页的网页元素中确定对应的选择元素,并从选择元素所包含的子元素中确定与子元素选择指令对应的选择子元素;获取对象元素所包含的对象子元素,对象元素为目标网页中与选择元素相关联的网页元素;确定选择子元素在文档对象模型树中相对于其祖先元素的选择路径;选择路径的路径节点对应有选择标签;根据选择路径逐层从对象子元素中确定与选择标签相匹配的子元素,得到候选子元素;根据候选子元素得到选择子元素的目标相似子元素。根据本申请的上述方案所确定的目标相似子元素具有较高的稳定性。

技术领域

本申请涉及网络爬虫技术领域,特别是涉及一种网页相似子元素的确定方法、装置、计算机设备和存储介质。

背景技术

随着网络技术的发展,网络上的数据量急剧增加,同时大数据处理需求的不断增强,因此,网络爬虫技术显得越来越重要。其中,网络爬虫(又称为网页蜘蛛,网络机器人)按照一定的规则自动地抓取万维网信息的程序或者脚本,能够根据用户的需求获取特定网页上的特定元素信息。

传统方法通过逐层进行元素查找的方式确定最终的目标元素,实际上,在某些情况下,需要查找与用户选择的子元素相对应的相似子元素。发明人发现可以对传统确定目标元素的方法经过一定的调整用于确定目标子元素。但是,传统方法得到的目标元素所包含的信息过多,会导致结果不够稳定,例如:在网页发生变化时所确定的目标元素就会失效。因此,通过传统方法并不能确定出稳定的相似子元素。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

基于此,有必要针对上述技术问题,提供一种能够确定出稳定的相似子元素的网页相似子元素的确定方法、装置、计算机设备和存储介质。

在一个实施例中,提供一种网页相似子元素的确定方法,所述方法包括:在接收到针对目标网页的子元素选择指令时,从所述目标网页的网页元素中确定对应的选择元素,并从所述选择元素所包含的子元素中确定与所述子元素选择指令对应的选择子元素;获取对象元素所包含的子元素,作为对象子元素,所述对象元素为所述目标网页中与所述选择元素相关联的网页元素;确定所述选择子元素在文档对象模型树中相对于第一祖先元素的路径,得到选择路径;所述选择路径的路径节点对应有选择标签;所述第一祖先元素为所述选择子元素在所述对象元素中对应的上级元素;根据所述选择路径逐层从所述对象子元素中确定与所述选择标签相匹配的子元素,得到候选子元素;根据所述候选子元素得到所述选择子元素的目标相似子元素。

在一个实施例中,提供一种网页相似子元素的确定装置,所述装置包括:选择元素获取模块,用于在接收到针对目标网页的子元素选择指令时,从所述目标网页的网页元素中确定对应的选择元素,并从所述选择元素所包含的子元素中确定与所述子元素选择指令对应的选择子元素;对象元素获取模块,用于获取对象元素所包含的子元素,作为对象子元素,所述对象元素为所述目标网页中与所述选择元素相关联的网页元素;选择路径确定模块,用于确定所述选择子元素在文档对象模型树中相对于第一祖先元素的路径,得到选择路径;所述选择路径的路径节点对应有选择标签;所述第一祖先元素为所述选择子元素在所述对象元素中对应的上级元素;候选子元素确定模块,用于根据所述选择路径逐层从所述对象子元素中确定与所述选择标签相匹配的子元素,得到候选子元素;相似子元素确定模块,用于根据所述候选子元素得到所述选择子元素的目标相似子元素。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010242914.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top