[发明专利]一种页面元素过滤方法、装置、设备及存储介质在审
申请号: | 201910388432.7 | 申请日: | 2019-05-10 |
公开(公告)号: | CN111914199A | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 刘志祥;张贤谊;杨宁;李瑞 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/957 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;贾允 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 页面 元素 过滤 方法 装置 设备 存储 介质 | ||
本申请提供一种页面元素过滤方法、装置、设备及存储介质,所述方法包括:获取目标页面,所述目标页面包括至少一个页面元素;获取与每个页面元素对应的编码特征;对所述与每个页面元素对应的编码特征进行元素识别处理,得到属于目标对象的页面元素;过滤所述属于目标对象的页面元素。本申请能够提高浏览器页面中广告元素过滤的准确率,降低浏览器的广告过滤成本。
技术领域
本申请属于互联网技术领域,具体涉及一种页面元素过滤方法、装置、设备及存储介质。
背景技术
浏览器为用户提供方便快捷的上网体验,但是很多站点为了盈利插入过多的广告,影响用户的上网体验,且网页拉取广告图片等操作也会增加用户的流量消耗。
现有的解决方案是人工收集页面中广告元素的名称或子资源名称,并将收集到的广告元素的名称或子资源名称写入规则库,浏览器在渲染页面的时候,将所有页面元素与该规则库进行匹配,对匹配成功的页面元素进行过滤或拦截下载等操作。
但是,通过规则库匹配页面上的广告元素存在以下问题:(1)网站可以通过定期改变广告元素名称,甚至把广告元素名称变成随机生成的字符串,导致规则库无法匹配;(2)规则库中的广告元素的名称或子资源名称是由人工收集的,维护规则库的成本较高,从而增加浏览器广告过滤成本。
发明内容
为了提高浏览器页面中广告元素过滤的准确率,降低浏览器的广告过滤成本,本申请提出一种页面元素过滤方法、装置、设备及存储介质。
一方面,本申请提出了一种页面元素过滤方法,所述方法包括:
获取目标页面,所述目标页面包括至少一个页面元素;
获取与每个页面元素对应的编码特征;
对所述与每个页面元素对应的编码特征进行元素识别处理,得到属于目标对象的页面元素;
过滤所述属于目标对象的页面元素。
另一方面,本申请提出了一种页面元素过滤装置,所述装置包括:
第一获取模块,用于获取目标页面,所述目标页面包括至少一个页面元素;
第二获取模块,用于获取与每个页面元素对应的编码特征;
元素识别模块,用于对所述与每个页面元素对应的编码特征进行元素识别处理,得到属于目标对象的页面元素;
过滤模块,用于过滤所述属于目标对象的页面元素。
另一方面,本申请提出了一种设备,所述设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述所述的页面元素过滤方法。
另一方面,本申请提出了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述所述的页面元素过滤方法。
本申请提出的一种页面元素过滤方法、装置、设备及存储介质,通过分析目标页面中每个页面元素对应的原始数据内容,即每个页面元素对应的编码,得到与该页面元素对应的编码特征,将得到的编码特征输入到由机器训练学习方式获得的元素识别模型进行元素识别处理,并根据识别结果,过滤属于目标对象的页面元素。由于每个页面元素均有其特定的编码方式,即便广告商修改页面元素的名称或将名称变成随机生成的字符串,也不会影响识别结果,因为页面元素的编码方式并没有改变,从而确保较高的识别准确率,同时,由于编码特征不需要人工收集,且广告元素的编码方式相对固定,维护模型的人工成本较低,从而降低了浏览器的广告过滤成本。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910388432.7/2.html,转载请声明来源钻瓜专利网。