[发明专利]一种手机上网垃圾日志的过滤方法无效
申请号: | 201310633659.6 | 申请日: | 2013-12-03 |
公开(公告)号: | CN103593484A | 公开(公告)日: | 2014-02-19 |
发明(设计)人: | 邵伟;昂卫武;黄汇 | 申请(专利权)人: | 南京安讯科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210012 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 手机 上网 垃圾 日志 过滤 方法 | ||
技术领域
本发明涉及一种手机上网垃圾日志的过滤方法,属于数据挖掘技术领域。
背景技术
在基于框架的网页模式下,当用户访问网页时,服务器通常会向用户设备发一个包含URL链接的网页,由于该URL页面通常隐藏着子URL页面,因而从用户的角度看,虽然只发起了一次URL请求,却加载了多条自动推送的URL记录。这些自动推送的URL记录大量存在于用户上网日志文件中,其并不能代表用户的真实上网行为。为了能够更精确的洞察用户的上网行为,我们需要将这些自动推送内容从日志文件中过滤出来。
传统的垃圾日志过滤方法主要是基于匹配方式的,对于某条URL记录,若不在主动访问数据库中,则我们认为其为自动推送记录并将它过滤出来。该方法的最大困难在于,第一,对于URL信息通常包含了诸如SID安全标示符这样的随机字符串,使得在利用简单匹配方式进行匹配时的成功率较低;第二,在对主动访问数据库进行更新时人工参与量较大,需要寻求一种自动化的方式对主动访问数据库进行更新。
发明内容
针对以上弊端,本发明提供一种手机上网垃圾日志过滤方法,主要方法如下:
通过分析手机上网日志中主动获取内容和自动推送内容在时序上的差异性提取出主动上网日志中所包含的URL所对应的path信息;
根据一定的拆分规则对主动上网类URL对应的path信息进行拆分,进而获取各host站点所对应的特征字符串集;
利用关联规则挖掘方式对各host站点对应的特征字符串集进行关联分析,总结出各host站点对应的常见主动访问模式,并据此将主动推送类垃圾日志过滤出来。
其中在获取主动上网类日志中的URL信息时,首先通过抓包的方式人工获取自动加载类URL与主动访问类URL的时间间隔序列xi(i=1,2...N);
利用Parzen窗对该时间间隔序列的总体概率密度进行估计,落在点x处的概率密度函数的估计值为:
其中φ(u)为Parzen窗函数,在这里我们选择窗宽为1的正态窗函数,其具体形式为:
根据求解出的概率密度分布,确定该类网站2类URL加载时间间隔总体均数的95%单边置信区间[-∞,α]。当主动请求页面加载完成后,有95%自动推送页面的加载时间小于α,故针对该类网站下的访问日志以α作为时间间隔进行群组分割,依据单边置信区间提取各类host下主动访问类URL所对应的path信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京安讯科技有限责任公司,未经南京安讯科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310633659.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车驱动桥整体桥壳的轴头成型机
- 下一篇:一种零件内齿精密成形方法