[发明专利]一种信息处理方法及装置有效
申请号: | 201510729292.7 | 申请日: | 2015-10-30 |
公开(公告)号: | CN105224691B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 才华;肖春天 | 申请(专利权)人: | 北京网康科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/954 |
代理公司: | 北京市邦道律师事务所 11437 | 代理人: | 薛艳;王丽影 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种信息处理方法,所述方法包括:从N个采样点的上网行为审计设备收集网页访问日志;其中,N为正整数;按照第一预定周期对所述网页访问日志的域名进行归类和分析,生成域名分类信息;获取来自第一用户的上网行为审计设备的网页访问日志;按照第二预定周期,并基于域名分类信息对所述来自第一用户的上网行为审计设备的网页访问日志进行分析,以识别用于表征第一用户的真实访问行为的网页访问日志。本发明还同时公开了一种信息处理装置。采用本发明的技术方案,能准确识别用户的实际访问行为。 | ||
搜索关键词: | 一种 信息处理 方法 装置 | ||
【主权项】:
1.一种信息处理方法,其特征在于,所述方法包括:从N个采样点的上网行为审计设备收集网页访问日志;其中,N为正整数;按照第一预定周期对所述网页访问日志的域名进行归类和分析,生成域名分类信息;获取来自第一用户的上网行为审计设备的网页访问日志;按照第二预定周期,并基于域名分类信息对所述来自第一用户的上网行为审计设备的网页访问日志进行分析,以识别用于表征第一用户的真实访问行为的网页访问日志;并且,所述按照第一预定周期对所述网页访问日志的域名进行归类和分析,生成域名分类信息,包括:对访问同一域名的所有日志,检查日志的数量是否超过第一门限,若没有超过第一门限,则退出分析;若超过第一门限,则检查所述所有日志中发起访问的用户数是否超过第二门限,若没有超过第二门限,则退出分析;若超过第二门限,则检查各日志的主题字段中是否包含异常字段,并将主题字段中包含有异常字段的日志排除;计算包含有效主题的日志的比例,若包含有效主题的日志的比例超过第三门限,计算所有包含有效主题的日志中主题长度权重的分布,若主题长度权重的加权平均数超过第四门限,计算所述所有包含有效主题的日志中主题的信息量,若信息量超过第五门限,则判定域名为内容类域名;否则,若包含有效主题的日志的比例未超过第三门限,或若主题长度权重的加权平均数未超过第四门限,或若信息量未超过第五门限,则判定域名为资源类域名;所述按照第二预定周期,并基于域名分类信息对所述来自第一用户的上网行为审计设备的网页访问日志进行分析,包括:基于域名分类信息对来自第一用户的上网行为审计设备的网页访问日志的域名进行分析,将网页访问日志划分为对内容类域名的访问和对资源类域名的访问;对访问内容类域名的日志进行主题信息分析,查找出属于第一用户的访问行为的日志;对访问内容类域名的日志进行时序分析,查找出属于第一用户的访问行为的日志;对于属于第一用户的访问行为的日志,基于统一资源定位符URL进行周期性分析,判断是否具有周期性特征,如果具有,则作为噪声清洗;对于经过周期性分析后仍被判定为第一用户的访问行为的日志,基于域名进行访问频率分析,判断访问频率是否超过第六门限,如果超过,则作为噪声清洗;将经过频率分析后仍被判定为第一用户的访问行为的日志,确定为第一用户的真实访问行为。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京网康科技有限公司,未经北京网康科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510729292.7/,转载请声明来源钻瓜专利网。
- 上一篇:基于知识建模的空间信息处理方法
- 下一篇:一种阻性消声器