[发明专利]一种基于动态插桩和静态多脚本页特征提取的网页广告检测方法有效
申请号: | 201710033452.3 | 申请日: | 2017-01-13 |
公开(公告)号: | CN108614849B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 张卫丰;赵晨;刘蕊成;陈贵美;许蕾;张迎周;周国强;王子元 | 申请(专利权)人: | 南京邮电大学盐城大数据研究院有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/958;G06F8/41 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张树朋 |
地址: | 224000 江苏省盐城市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 静态 脚本 特征 提取 网页 广告 检测 方法 | ||
1.一种基于动态插桩和静态多脚本页特征提取的网页广告检测方法,其特征在于,首先通过执行包含网页广告的页面,动态获取网页中广告生成路径的函数调用路径信息,通过调用路径信息获取网页广告生成所需要的所有JavaScript脚本文件;在此基础上,对所有脚本文件进行静态分析,通过特征分类模型识别出网页广告。
2.根据权利要求1所述的基于动态插桩和静态多脚本页特征提取的网页广告检测方法,其特征是包括以下步骤:
1)对广告进行分析,获取其动态特性,并在网页中定位广告,通过对网页中动态广告的分析,获取网页广告的动态特性,为此需要对动态广告的完整生成过程进行分析,并对比其与普通网页页面元素的不同之处,定位到具体的网页广告代码;
2)使用1)的方法,定位页面中网页广告的具体位置,再对网页广告进行完整的调用路径追踪,其中包括广告生成过程中的函数调用路径以及具体执行的脚本代码等信息,通过对函数调用路径的获取可以得到广告生成路径上所有的JavaScript脚本文件,据此可以不局限于单个页面上元素的特征分析;
3)对于获得的多个脚本文件抽取特征,即根据2)获得的JavaScript脚本文件,对多个JS文件抽取特征,获取广告生成的静态特征,包括HTML DOM元素特征、JavaScript脚本特征、CSS特征等,使用分类器对此进行训练,生成广告代码检测模型;
4)对结果进行反馈,使用广告代码检测模型运行测试数据,将其结果与实际的广告进行比较,对分类过程中的阈值进行调整,对实际的网页广告进行检测和识别。
3.根据权利要求2所述的基于动态插桩和静态多脚本页特征提取的网页广告检测方法,其特征是步骤1)中,对广告进行分析获取其动态特性并在网页中定位广告,具体为:
通过对网页中动态广告的分析,获取网页广告的动态特性,为此需要对动态广告的完整生成过程进行分析,并对比其与普通网页页面元素的不同之处,定位到具体的网页广告代码;
对于动态广告的分析,主要需要考虑通过广告联盟进行传播的广告,这类广告的生成调用了第三方即广告联盟的脚本库,用于生成广告,其广告生成动态特性是来自于第三方脚本库的JavaScript代码自动执行。
4.根据权利要求1所述的基于动态插桩和静态多脚本页特征提取的网页广告检测方法,其特征是步骤2)中,对网页广告进行调用路径的追踪:
当定位了页面中网页广告的具体位置后,再对网页广告进行完整的调用路径追踪;网页广告的生成经历了多次函数调用,调用路径包括了多次跳转,即调用了多个脚本文件,这些脚本文件是后续获取广告特征所需要使用的数据集,因此,对于已经确定的可能广告位,需要对其调用路径进行追踪和记录;
在网页运行中对每个函数获取其调用者,判断调用者是否已经被标记,如果其调用者被标记,则给本身函数加入路径信息,对路径进行追踪和保存;如果没有被标记则不做任何操作;
使用动态插桩方法实现对JavaScript中函数添加包含调用信息的自定义属性,通过对调用信息的显示,可以获取路径上具体的脚本文件集合,由此实现对广告生成路径上所有脚本文件的特征进行分析。
5.根据权利要求1所述的基于动态插桩和静态多脚本页特征提取的网页广告检测方法,其特征在于步骤3)中,对于获得的多个脚本文件抽取特征:
对大量包含广告的网站使用动态插桩方法得到与广告相关的JavaScript脚本文件。使用批处理的方法将相应文件进行保存,以作为抽取广告静态特征时的数据集。将于广告无关的JavaScript脚本文件用相同的方法进行保存并作为与广告无关的对照数据集。对于广告相关的JavaScript脚本文件进行静态特征的抽取,包括广告生成过程中函数调用路径的深度、脚本文件中字符串拼接次数、动态执行代码次数、使用原生函数的种类和次数、使用JavaScript事件处理函数的种类和次数等,据此对广告文件进行特征抽取,判定满足一定特征的脚本文件是否为广告。
6.根据权利要求1所述的基于动态插桩和静态多脚本页特征提取的网页广告检测方法,其特征在于步骤4)中,对结果进行反馈,将分类器运行测试数据的结果与实际的广告进行比较,对分类过程中的阈值进行调整,对网页广告进行检测和识别;实验数据中的训练数据用于对使用的特征分类为广告相关特征和广告无关特征;测试数据用于对训练好的模型进行检验,用于评估模型的准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学盐城大数据研究院有限公司,未经南京邮电大学盐城大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710033452.3/1.html,转载请声明来源钻瓜专利网。