[发明专利]一种同类元素确定方法、装置、计算机设备及存储介质有效
申请号: | 202010241436.5 | 申请日: | 2020-03-31 |
公开(公告)号: | CN111460259B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 于洋 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 李娟 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 同类 元素 确定 方法 装置 计算机 设备 存储 介质 | ||
1.一种同类元素确定方法,其特征在于,包括:
响应于针对目标网页中元素的选择操作,获得选择元素集;
针对每个选择元素,确定选择元素在文档对象模型树中相对于到根节点的路径,获得选择路径集;
针对所述选择路径集中每个选择路径,逐层向下生成每一层中各节点对应的选择器,获得第一选择器集;
根据所述第一选择器集,获得第一候选同类元素集;
根据拒绝元素集,获得拒绝元素集以及各拒绝元素的相似元素组成的第一候选拒绝元素集;其中,拒绝元素集是根据目标网页中元素的拒绝操作生成的;
删除所述第一候选同类元素集中的部分候选同类元素,获得第二候选同类元素集;其中,部分候选同类元素包括与所述选择元素集中元素不具有共有特征,但与所述第一候选拒绝元素集中元素具有共有特征的元素;
根据第二候选同类元素集,获得目标同类元素。
2.如权利要求1所述的方法,其特征在于,获得拒绝元素集以及各拒绝元素的相似元素组成的第一候选拒绝元素集,包括:
根据标签对选择路径集进行分组,得到分组选择路径集;
按照对分组选择路径集对应的标签对拒绝路径集进行分组,得到分组拒绝路径集;其中,所述拒绝路径集是包括各拒绝元素在文档对象模型树中相对于到根节点的路径;
针对每个分组拒绝路径,遍历分组拒绝路径中的各节点,得到第二候选拒绝元素集;
从所述第二候选拒绝元素集中逐层去除对应分组选择路径集中的候选同类元素,得到第一候选拒绝元素集。
3.如权利要求1或2所述的方法,其特征在于,删除所述第一候选同类元素集中的部分候选同类元素,获得第二候选同类元素集,包括:
确定所述第一候选拒绝元素集与所述第一候选同类元素集存在的共同元素集;
根据所述共同元素集,调整所述第一选择器集,获得第三选择器集;其中,所述第三选择器集从所述目标网页中匹配出的元素排除所述共同元素集中部分或全部的元素;
根据所述第三选择器集,获得第二候选同类元素。
4.如权利要求3所述的方法,其特征在于,根据所述共同元素集中各共同元素的分类,调整所述第一选择器集,获得第三选择器集,包括:
若所述第一候选拒绝元素集的数量大于阈值,则在所述第一选择器集中,删除部分第一选择器,获得第三选择器集;其中,部分第一选择器包括所述共同元素集中与不属于选择元素集的元素关联的第一选择器;
若所述第一候选拒绝元素集的数量小于或等于阈值,则在所述第一选择器集中,删除部分第一选择器,获得第三选择器集;其中,部分第一选择器包括所述共同元素集中与所述第一候选拒绝元素集属于相同分类的元素关联的第一选择器。
5.如权利要求1~2任一项所述的方法,其特征在于,针对所述选择路径集中每个选择路径,逐层向下生成每一层中各节点对应的选择器,获得第一选择器集,包括:
获得第三侯选同类元素集;其中,所述第三候选同类元素包括各选择路径中各节点;
针对每个第三候选同类元素,确定出第三候选同类元素对应的选择器,获得第二选择器集;其中,每个第二选择器在所述目标网页中匹配出唯一的第三候选同类元素;
针对第二选择器集中每个第二选择器,组合第二选择器,以及第二选择器表示的第三候选同类元素的上一层元素对应的第二选择器,确定第三候选同类元素对应的第一选择器,获得第一选择器集。
6.如权利要求5所述的方法,其特征在于,针对每个第三候选同类元素,确定出第三候选同类元素对应的选择器,获得第二选择器集,包括:
若第三候选同类元素集存在多个第三候选同类元素,则获取多个候选同类元素的共有分类列表;
针对每个第三候选同类元素,将共有分类列表,以及第三候选同类元素对应的标签确定为第三候选同类元素的第二选择器,获得第二选择器集;
若第三候选同类元素集存在一个第三候选同类元素,则将第三候选同类元素的标志ID确定为第三候选同类元素的第二选择器,获得第二选择器集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010241436.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种三层导流板防冲刷桥墩
- 下一篇:施工放样方法、终端设备及存储介质