[发明专利]网页相似子元素的确定方法、装置、设备和存储介质有效
申请号: | 202010242914.4 | 申请日: | 2020-03-31 |
公开(公告)号: | CN111488544B | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 于洋 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/951 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 李文渊 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 相似 元素 确定 方法 装置 设备 存储 介质 | ||
1.一种网页相似子元素的确定方法,所述方法包括:
在接收到针对目标网页的子元素选择指令时,从所述目标网页的网页元素中确定对应的选择元素,并从所述选择元素所包含的子元素中确定与所述子元素选择指令对应的选择子元素;
获取对象元素所包含的子元素,作为对象子元素,所述对象元素为所述目标网页中与所述选择元素相关联的网页元素;
确定所述选择子元素在文档对象模型树中相对于第一祖先元素的路径,得到选择路径;所述选择路径的路径节点对应有选择标签;所述第一祖先元素为所述选择子元素在所述对象元素中对应的上级元素;
根据所述选择路径逐层从所述对象子元素中确定与所述选择标签相匹配的子元素,得到候选子元素;
根据所述候选子元素得到所述选择子元素的目标相似子元素。
2.根据权利要求1所述的方法,其特征在于,所述根据所述候选子元素得到所述选择子元素的目标相似子元素的步骤,包括:
在接收到针对目标网页的子元素拒绝指令时,从所述目标网页的网页元素中确定对应的拒绝元素,并从所述拒绝元素所包含的子元素中确定与所述子元素拒绝指令对应的拒绝子元素;
确定所述拒绝子元素在文档对象模型树中相对于第二祖先元素的路径,得到拒绝路径;所述拒绝路径各个层的路径节点对应有拒绝标签;所述第二祖先元素为所述拒绝子元素在所述对象元素中对应的上级元素;
根据所述拒绝路径从所述候选子元素中逐层去除拒绝子元素,得到所述目标相似子元素。
3.根据权利要求2所述的方法,其特征在于,所述根据所述拒绝路径从所述候选子元素中逐层去除拒绝子元素,得到所述目标相似子元素的步骤,包括:
根据所述选择标签对所述选择路径进行分组,得到至少一个选择分组路径;同一所述选择分组路径中包含有相同的选择标签;
从所述对象子元素中分别确定与各个选择分组路径的选择标签相匹配的子元素,得到各个选择分组路径对应的组选择子元素;
按照所述选择分组路径中的选择标签对拒绝路径进行分组,得到至少一个拒绝分组路径;所述拒绝分组路径与所述选择分组路径中的路径节点对应一致;
从所述对象子元素中分别确定与各个拒绝分组路径的拒绝标签相匹配的子元素,得到各个拒绝分组路径对应的组拒绝子元素;
从所述候选子元素的各个组选择子元素中逐层去除对应拒绝分组路径的组拒绝子元素,得到所述目标相似子元素。
4.根据权利要求3所述的方法,其特征在于,所述从所述候选子元素的各个组选择子元素中逐层去除对应拒绝分组路径的组拒绝子元素,得到所述目标相似子元素的步骤,包括:
根据目标选择路径中的节点选择子元素得到所述目标选择路径的路径选择子元素;所述目标选择路径为目标选择分组路径中的路径,所述目标选择分组路径为所述至少一个选择分组路径中的分组路径,所述节点选择子元素为所述目标选择路径中各个路径节点对应的对象子元素;
根据目标拒绝路径中的节点拒绝子元素得到所述目标拒绝路径的路径拒绝子元素;所述目标拒绝路径为目标拒绝分组路径中的路径且与所述目标选择路径对应,所述目标拒绝分组路径为所述至少一个拒绝分组路径中的分组路径,所述节点拒绝子元素为所述目标拒绝路径中各个路径节点对应的对象子元素;
从所述候选子元素的各个路径选择子元素中去除对应拒绝路径的路径拒绝子元素,得到所述目标相似子元素。
5.根据权利要求4所述的方法,其特征在于,所述根据目标选择路径中的节点选择子元素得到所述目标选择路径的路径选择子元素的步骤,包括:
确定所述目标选择路径中第一目标选择节点对应的所述选择标签,得到目标选择标签;所述第一目标选择节点逐层从所述目标选择路径的路径节点中选择得到;
从所述对象子元素中确定与所述目标选择标签相匹配的子元素,得到所述第一目标选择节点的节点选择子元素;
根据所述目标选择路径中各个路径节点的节点选择子元素得到所述目标选择路径的路径选择子元素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010242914.4/1.html,转载请声明来源钻瓜专利网。