[发明专利]数据过滤方法和数据过滤装置无效

专利信息
申请号: 201110025974.1 申请日: 2011-01-20
公开(公告)号: CN102081670A 公开(公告)日: 2011-06-01
发明(设计)人: 程皓 申请(专利权)人: 张金海;姜洁丽
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市金杜律师事务所 11256 代理人: 吴立明;唐文静
地址: 518042 广东省深圳市福田区*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 过滤 方法 装置
【说明书】:

技术领域

发明涉及互联网领域,更具体地,涉及一种数据过滤方法和数据过滤装置。

背景技术

用户在例如经由台式计算机浏览互联网或者例如经由移动终端浏览无线互联网时所发生的上网行为(例如,在浏览器地址栏中键入页面地址或者点击页面中的超链接)会产生大量通信数据。目前,存在对这些通信数据进行统计分析的技术。

然而,产生的数据量较大,且存在大量“脏数据”(即,与用户真实的上网行为(例如,用户手动行为)无关的数据)较多。例如,用户使用的浏览器在用户上网过程中很有可能自动触发大量的上行请求(即,从客户端到服务器的请求)。结果,导致这些技术处理速度较慢,并影响数据分析的准确性,以至于影响了多个层面的数据质量,而且需要的存储空间较大。

下面,结合图1来具体描述“脏数据”的示例性产生过程,其中图1示出了浏览器针对页面地址http://wallpic.3g.cn/special/12920/index17.aspx应该呈现出的页面截屏。

如本领域技术人员所知,上述页面地址会经由网络发送至网络服务器。响应于此,该网络服务器向该浏览器返回该页面的html文件以供其绘制出相应的页面。

从图1可见,呈现的页面包括多张图片,所以如本领域技术人员所知,针对该页面的html文件中会嵌有用于获取图片的网络地址。浏览器为了显示这些图片,自动向提供这些图片的网络服务器发出上行请求,从而触发“非用户”手动请求链接,具体例如包括:

http://anime.3g.cn/special/images/104456.gif

http://wallpic.3g.cn/special/images//109324.jpg

http://wallpic.3g.cn/special/images//108999.jpg

http://wallpic.3g.cn/special/images//108541.jpg

http://wallpic.3g.cn/special/images//108136.jpg

当前技术在进行统计分析时,误认为用户手动键入的页面地址所产生的一个上行请求和浏览器自动触发的五个上行请求都是由用户手动行为触发的,即,将一次用户行为统计成了六次用户行为。

实际上,用户手动请求链接只涉及一条上行请求(即,http://wallpic.3g.cn/special/12920/index17.aspx),其他链接请求都不是用户手动请求的,而是浏览器自动请求的,这些上行请求属于本发明中的“脏数据”。

然而,现有技术中并不存在针对这种“脏数据”的过滤方法。

发明内容

为了解决上述问题,本发明提供了一种数据过滤方法和数据过滤装置。

根据本发明的一个方面,提供了一种数据过滤方法,可以包括:获取由用户的上网行为产生的通信数据;提取该通信数据的数据特征;将提取的数据特征与预定数据特征进行匹配,以得到匹配结果;以及基于该匹配结果对该通信数据进行过滤。

根据本发明的另一方面,提供了一种数据过滤装置,可以包括:通信数据获取装置,配置用于获取由用户的上网行为产生的通信数据;数据特征提取装置,配置用于提取该通信数据的数据特征;匹配装置,配置用于将提取的数据特征与预定数据特征进行匹配,以得到匹配结果;以及过滤装置,配置用于基于该匹配结果对该通信数据进行过滤。

根据本发明的实施方式,可以至少清除通信数据中由非用户手动行为触发的上行请求,从而得到更加真实的用户上网行为。

附图说明

通过阅读参考附图描述的本发明非限制性优选实施方式,本发明的其他特征和优势将变得明显,其中:

图1示出了浏览器针对页面地址

http://wallpic.3g.cn/special/12920/index17.aspx应该呈现出的页面截屏。

图2示出了根据本发明示例性实施方式的数据过滤方法的流程图。

图3示出了从下行数据的http包体中解析出的gif文件内容。

图4示出了以文件扩展名结尾的统一资源定位符的示例性截屏。

图5A示出了无明显文件扩展名的统一资源定位符的示例性截屏。

图5B示出了针对统一资源定位符无明显文件扩展名这种情况的示例性预定数据特征截屏。

图6A示出了可由用户点击的页面链接及其统一资源定位符的示例性截屏。

图6B示出了跳转后的页面及其统一资源定位符的示例性截屏。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于张金海;姜洁丽,未经张金海;姜洁丽许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110025974.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top