[发明专利]一种基于动态行为的广告检测方法在审
申请号: | 201711468021.6 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108170810A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 张卫丰;陈贵美 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/02;G06K9/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 李想 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于动态行为的广告检测方法,主要是提取调用路径的特征生成检测模型,属于互联网领域。广告检测方法首先获取网页所有的网络请求,整理出请求的先后顺序,获取响应内容的函数调用路径。然后用Adblock中的EasyList列表作为标准判断是否是广告节点。整理好请求路径、相应文件的函数调用路径之后提取我们需要的特征。最后用机器学习方法的决策树自动学习生成检测规则,为了防止过拟合,还有需要用后剪枝的方法对其处理以获得更精确的检测模型。 1 | ||
搜索关键词: | 广告检测 动态行为 函数调用 检测 互联网领域 标准判断 广告节点 机器学习 特征生成 网络请求 相应文件 响应内容 自动学习 决策树 剪枝 拟合 调用 网页 | ||
1)、用户访问多个网页,分别记录单个网页中产生的所有请求、浏览器事件、响应体及状态码;
2)、根据步骤1)中所采集到的多个网页中所有的请求、浏览器事件、响应体及状态码;通过分析请求、浏览器事件、响应体及状态码判断请求之间调用关系建立请求的调用路径并建立路径统一标准;同时通过获取访问的响应文件内的的函数调用路径;
3)、针对步骤2)中请求调用路径中是否与访问主页域名相同,判断是否是出版商节点,非出版商节点利用Adblock中的EasyList和EasyPrivacy列表判断是否属于广告请求;根据是否是广告请求或非广告请求判断响应文件是否广告文件或非广告文件;
4)、针对步骤2)中响应文件判断文件中压缩情况、标记匿名函数个数、标记短函数名字个数,标记路径长度、标记内容插入方式提取广告特征;
5)、针对步骤3)中请求调用路径中标记广告请求路径长度与非广告请求路径长度;
6)、将上述步骤中获取的广告调用路径、广告文件函数调用路径、非广告调用路径、非广告文件函数调用路径进行分组;广告调用链路与广告文件函数调用路径为一组,非广告调用路径与非广告文件函数调用路径为一组;将两组作为测试组,将相同的数据作为验证集,利用机器学习中的决策树方法自动学习生成检测广告模型。
2.根据权利要求1所述的基于动态行为的广告检测方法,其特征在于:所述的步骤3)中出版商节点为来自出版商域的节点;广告节点为匹配EasyList或EasyPrivacy特性且非出版商节点;非广告节点为广告节点与出版商节点之外的节点。3.根据权利要求1所述的基于动态行为的广告检测方法,其特征在于:所述步骤6)中用测试集数据做测试,自动学习生成检测规则;用验证集数据做验证,并记录精度;对决策树进行剪枝,用验证集数据验证;如精度提高,则合并节点直至精度不再提高后或者精确的检测模型。该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711468021.6/,转载请声明来源钻瓜专利网。