[发明专利]一种基于动态行为的广告检测方法在审
申请号: | 201711468021.6 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108170810A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 张卫丰;陈贵美 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/02;G06K9/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 李想 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 广告检测 动态行为 函数调用 检测 互联网领域 标准判断 广告节点 机器学习 特征生成 网络请求 相应文件 响应内容 自动学习 决策树 剪枝 拟合 调用 网页 | ||
一种基于动态行为的广告检测方法,主要是提取调用路径的特征生成检测模型,属于互联网领域。广告检测方法首先获取网页所有的网络请求,整理出请求的先后顺序,获取响应内容的函数调用路径。然后用Adblock中的EasyList列表作为标准判断是否是广告节点。整理好请求路径、相应文件的函数调用路径之后提取我们需要的特征。最后用机器学习方法的决策树自动学习生成检测规则,为了防止过拟合,还有需要用后剪枝的方法对其处理以获得更精确的检测模型。
技术领域
一种基于动态行为的广告检测方法,主要是提取调用路径的特征生成检测模型,属于互联网领域。
背景技术
目前,互联网发展十分迅速,互联网与传统行业的结合也促进了传统行业的发展。现在,最流行的互联网+的模式主要有:互联网+衣食住行,互联网+教育,互联网+医疗等等,可以说互联网可以和任何行业结合,也给我们的生活带来了翻天覆地的变化。
互联网广告是互联网行业最主要的赢利模式。网络广告是当今最普遍的广告,而且仍然在大幅增长。美国网络广告的年收入从2005的125亿增加到2015年的596亿,达到了17%的复合年均增长率(
现在对广告的研究也不曾间断,为了降低广告的负面影响,出现了Adblock、Ghostery等广告屏蔽软件。为了帮助搜索引擎获得商业利润,又出现了Webranze这样的帮助广告避免被屏蔽的软件。以Adblock为代表的广告屏蔽软件是通过人工设置URL黑名单来实现的,如果出现了新的没有被报告或没有被发现的广告时,它不能屏蔽相应的广告。Webranze通过在服务器端和客户端对URL地址进行混淆、对页面元素属性进行随机化,使得每次生成的页面中用于匹配的URL和元素都无法根据已有的黑名单列表匹配出,从而绕过广告屏蔽软件的检测。
发明内容
本发明的目的是从广告节点及其路径传递过程中的相关内容中识别出显著特征,生成检测规则,并利用它们建立一个新的检测系统,从而实现对广告的检测。
本发明采用如下技术方案:
本发明所述的基于动态行为的广告检测方法,该检测方法如下:
1)用户访问多个网页,分别记录单个网页中产生的所有请求、浏览器事件、响应体及状态码;
2)根据步骤1)中所采集到的多个网页中所有的请求、浏览器事件、响应体及状态码;通过分析请求、浏览器事件、响应体及状态码判断请求之间调用关系建立请求的调用路径并建立路径统一标准;同时通过获取访问的响应文件内的的函数调用路径;
3)、针对步骤2)中请求调用路径中是否与访问主页域名相同,判断是否是出版商节点,非出版商节点利用Adblock中的EasyList和EasyPrivacy列表判断是否属于广告请求;根据是否是广告请求或非广告请求判断响应文件是否广告文件或非广告文件;
4)针对步骤2)中响应文件判断文件中压缩情况、标记匿名函数个数、标记短函数名字个数,标记路径长度、标记内容插入方式提取广告特征;
5)、针对步骤3)中请求调用路径中标记广告请求路径长度与非广告请求路径长度;
6)、将上述步骤中获取的广告调用路径、广告文件函数调用路径、非广告调用路径、非广告文件函数调用路径进行分组;广告调用链路与广告文件函数调用路径为一组,非广告调用路径与非广告文件函数调用路径为一组;将两组作为测试组,将相同的数据作为验证集,利用机器学习中的决策树方法自动学习生成检测广告模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711468021.6/2.html,转载请声明来源钻瓜专利网。