[发明专利]一种基于图和机器学习的广告拦截系统及方法在审
申请号: | 202011233201.8 | 申请日: | 2020-11-06 |
公开(公告)号: | CN112231578A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 潘晓光;王小华;王宇琦;潘晓辉;董虎弟 | 申请(专利权)人: | 山西三友和智慧信息技术股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/951;G06F16/955;G06K9/62;G06N20/00 |
代理公司: | 太原荣信德知识产权代理事务所(特殊普通合伙) 14119 | 代理人: | 杨凯;连慧敏 |
地址: | 030000 山西省*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 广告 拦截 系统 方法 | ||
本发明涉及一种基于图和机器学习的广告拦截系统及方法,该系统包括:溯源图构建模块、特征提取模块、分类器模块;溯源图构建模块在浏览器渲染页面的管道中收集页面资源加载信息,构建溯源图,将页面中的资源对应到其唯一来源;学习模块通过标记模块得到的训练数据进行学习训练,得到识别广告资源的分类器;分类器模块对特征提取模块中得到的溯源图中的网络资源节点进行分类识别,找出其中的广告资源,并提取广告资源对应的url。本发明通过构建溯源图以及机器学习方法识别并拦截页面中的广告资源,实现了加速页面加载速度、拦截准确率高的功能,同时根据溯源图寻找出的广告资源可以完成自动扩充黑名单的功能;本发明涉及网络安全技术领域。
技术领域
本发明涉及网络安全技术领域,更具体而言,涉及一种基于图和机器学习的广告拦截系统及方法。
背景技术
针对网页上出现的广告,目前所知的有效拦截方法是使用黑名单及浏览器拓展进行拦截,这种方法被证明是有效的,但是由于页面上的广告会不断更新,而黑名单的更新需要人力完成,大大增加了人力成本,同时黑名单也存在拦截错误以及减缓页面加载时间的情况,使正常的页面内容无法显示,进而影响用户的上网体验。
因此,有必要对现有技术进行改进。
发明内容
为了克服现有技术中存在的不足,提供一种拦截准确率高、页面加载速度快、可自动扩充黑名单的基于图和机器学习的广告拦截方法及系统。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于图和机器学习的广告拦截系统,包括依次连接的溯源图构建模块、特征提取模块、分类器模块;
所述溯源图构建模块用于在浏览器渲染页面的管道中收集页面资源加载信息,构建溯源图,将页面中的资源对应到其唯一来源;
所述特征提取模块用于接收溯源图构建模块生成的溯源图,对每一个图中节点,即页面资源提取内容特征和结构特征,生成每个节点的多维特征向量;
所述分类器模块用于对特征提取模块中提取到的多个节点的多维特征向量进行分类识别,找出其中的广告资源进行拦截。
进一步的,还包括黑名单模块、标记模块和学习模块,所述标记模块分别与特征提取模块和黑名单模块连接,标记模块根据黑名单模块中已存在的数据标记特征提取模块生成的多维特征向量并存储;所述学习模块分别与标记模块和分类器模块连接,学习模块根据标记模块的数据进行学习训练并更新分类器模块。
进一步的,还包括反馈模块,所述反馈模块分别与分类器模块和黑名单模块连接,反馈模块用于将分类器模块中得到的广告资源的url做进一步处理,生成黑名单模块中没有的过滤规则,扩充黑名单模块。
进一步的,所述溯源图构建模块、特征提取模块和分类器模块设置在浏览器的渲染引擎内部;
所述标记模块、学习模块、反馈模块和黑名单模块离线部署。
一种基于图和机器学习的广告拦截方法,包括以下步骤:
S1、浏览器接收到网页html文档后,渲染引擎会解析html文档为dom树,溯源图模块抓取dom树信息,监控javascript执行,将每个页面资源对应到其来源;
S2、特征提取模块接受来自溯源图模块生成的溯源图,并对每一个图中节点,即页面资源提取内容特征和结构特征;
S3、特征提取模块生成溯源图中每个节点的多维特征向量,并输入到分类器模块,分类器模块包含已经训练好的分类器模型,分类器模块通过分类器模型对特征提取模块提取到的多个节点的特征向量进行识别,找出其中的广告资源进行拦截。
进一步的,还包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西三友和智慧信息技术股份有限公司,未经山西三友和智慧信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011233201.8/2.html,转载请声明来源钻瓜专利网。