[发明专利]一种手机上网垃圾日志的过滤方法无效

申请号：	201310633659.6	申请日：	2013-12-03
公开（公告）号：	CN103593484A	公开（公告）日：	2014-02-19
发明（设计）人：	邵伟;昂卫武;黄汇	申请（专利权）人：	南京安讯科技有限责任公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	210012 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种手机上网垃圾日志过滤方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种手机上网垃圾日志的过滤方法，属于数据挖掘技术领域。

背景技术

在基于框架的网页模式下，当用户访问网页时，服务器通常会向用户设备发一个包含URL链接的网页，由于该URL页面通常隐藏着子URL页面，因而从用户的角度看，虽然只发起了一次URL请求，却加载了多条自动推送的URL记录。这些自动推送的URL记录大量存在于用户上网日志文件中，其并不能代表用户的真实上网行为。为了能够更精确的洞察用户的上网行为，我们需要将这些自动推送内容从日志文件中过滤出来。

传统的垃圾日志过滤方法主要是基于匹配方式的，对于某条URL记录，若不在主动访问数据库中，则我们认为其为自动推送记录并将它过滤出来。该方法的最大困难在于，第一，对于URL信息通常包含了诸如SID安全标示符这样的随机字符串，使得在利用简单匹配方式进行匹配时的成功率较低；第二，在对主动访问数据库进行更新时人工参与量较大，需要寻求一种自动化的方式对主动访问数据库进行更新。

发明内容

针对以上弊端，本发明提供一种手机上网垃圾日志过滤方法，主要方法如下：

通过分析手机上网日志中主动获取内容和自动推送内容在时序上的差异性提取出主动上网日志中所包含的URL所对应的path信息；

根据一定的拆分规则对主动上网类URL对应的path信息进行拆分，进而获取各host站点所对应的特征字符串集；

利用关联规则挖掘方式对各host站点对应的特征字符串集进行关联分析，总结出各host站点对应的常见主动访问模式，并据此将主动推送类垃圾日志过滤出来。

其中在获取主动上网类日志中的URL信息时，首先通过抓包的方式人工获取自动加载类URL与主动访问类URL的时间间隔序列x_i(i＝1，2...N)；

利用Parzen窗对该时间间隔序列的总体概率密度进行估计，落在点x处的概率密度函数的估计值为：

p(x)=1NΣi=1N1VNφ(x-xihN)]]>