[发明专利]一种手机上网垃圾日志的过滤方法无效
申请号: | 201310633659.6 | 申请日: | 2013-12-03 |
公开(公告)号: | CN103593484A | 公开(公告)日: | 2014-02-19 |
发明(设计)人: | 邵伟;昂卫武;黄汇 | 申请(专利权)人: | 南京安讯科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210012 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 手机 上网 垃圾 日志 过滤 方法 | ||
1.一种手机上网垃圾日志的过滤方法,其主要特征在于,主要包括以下步骤:
通过分析手机上网日志中主动获取内容和自动推送内容在时序上的差异性提取出主动上网日志中所包含的URL信息;
根据一定的拆分规则对主动上网类URL对应的path信息进行拆分,进而获取各host站点所对应的特征字符串集;
利用关联规则挖掘方式对各host站点对应的特征字符串集进行关联分析,总结出各host站点对应的常见主动访问模式,并据此将主动推送类垃圾日志过滤出来。
2.如权利要求1所述,一种手机上网垃圾日志的过滤方法,其特征在于,手机上网日志中主动获取内容和自动推送内容在时序上的差异性可以通过统计来实现,主要包括以下几步:
针对某种类型网站,首先通过抓包的方式人工获取自动加载类URL与主动访问类URL的时间间隔序列xi(i=1,2...N);
利用Parzen窗对该时间间隔序列的总体概率密度进行估计,落在点x处的概率密度函数的估计值为:
其中为Parzen窗函数,在这里我们选择窗宽为1的正态窗函数,其具体形式为:
依据求解出的概率密度分布,确定该类网站2类URL加载时间间隔总体均数的95%单边置信区间[-∞,α],即对于该类网站,当主动请求页面加载完成后,有95%自动推送页面的加载时间小于α,故针对该类网站下的访问日志我们以α作为时间间隔进行群组分割,依据单边置信区间提取各类host下主动访问类URL所对应的path信息。
3.如权利要求1所述,一种手机上网垃圾日志的过滤方法,其特征在于,获取URL所对应的的特征字符串集的方法步骤如下:首先按照path路径进行层次拆分得到了各级path路径下的字符串;其次考虑一些特殊的符合如“?”、“&”对各级path路径同样具有分割效果,故以此为分隔符对各级path路径做进一步的拆分;最后,对于像SID安全标示符这样的随机字符串,其一般以“sid=xxx”的形式存在,针对这种情况,我们只取左边的标示符而忽略等号右边的随机字符串。这样,将分割后的字符串收集起来作为host站点所对应的特征字符串。
4.如权利要求1所述,一种手机上网垃圾日志的过滤方法,其特征在于,总结出各host站点对应的常见主动访问模式的方法如下:对于host站点下某条主动上网类型的path信息,其包括的特征字符串的个数一般小于4个而大于2个,所以对该host站点上网模式进行归纳的核心在于如何从大量的特征字符串中寻找具有强关联的2-频繁项字符串集,3-频繁项字符串集,4-频繁项字符串集,设置一定的置信度阀值及支持度阀值来寻找强关联的单词组,对对置信度(Confidence)与支持度(Surpport)的定义如下所示:
。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京安讯科技有限责任公司,未经南京安讯科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310633659.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车驱动桥整体桥壳的轴头成型机
- 下一篇:一种零件内齿精密成形方法