[发明专利]数据过滤方法和数据过滤装置无效
申请号: | 201110025974.1 | 申请日: | 2011-01-20 |
公开(公告)号: | CN102081670A | 公开(公告)日: | 2011-06-01 |
发明(设计)人: | 程皓 | 申请(专利权)人: | 张金海;姜洁丽 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 吴立明;唐文静 |
地址: | 518042 广东省深圳市福田区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 过滤 方法 装置 | ||
技术领域
本发明涉及互联网领域,更具体地,涉及一种数据过滤方法和数据过滤装置。
背景技术
用户在例如经由台式计算机浏览互联网或者例如经由移动终端浏览无线互联网时所发生的上网行为(例如,在浏览器地址栏中键入页面地址或者点击页面中的超链接)会产生大量通信数据。目前,存在对这些通信数据进行统计分析的技术。
然而,产生的数据量较大,且存在大量“脏数据”(即,与用户真实的上网行为(例如,用户手动行为)无关的数据)较多。例如,用户使用的浏览器在用户上网过程中很有可能自动触发大量的上行请求(即,从客户端到服务器的请求)。结果,导致这些技术处理速度较慢,并影响数据分析的准确性,以至于影响了多个层面的数据质量,而且需要的存储空间较大。
下面,结合图1来具体描述“脏数据”的示例性产生过程,其中图1示出了浏览器针对页面地址http://wallpic.3g.cn/special/12920/index17.aspx应该呈现出的页面截屏。
如本领域技术人员所知,上述页面地址会经由网络发送至网络服务器。响应于此,该网络服务器向该浏览器返回该页面的html文件以供其绘制出相应的页面。
从图1可见,呈现的页面包括多张图片,所以如本领域技术人员所知,针对该页面的html文件中会嵌有用于获取图片的网络地址。浏览器为了显示这些图片,自动向提供这些图片的网络服务器发出上行请求,从而触发“非用户”手动请求链接,具体例如包括:
http://anime.3g.cn/special/images/104456.gif
http://wallpic.3g.cn/special/images//109324.jpg
http://wallpic.3g.cn/special/images//108999.jpg
http://wallpic.3g.cn/special/images//108541.jpg
http://wallpic.3g.cn/special/images//108136.jpg
当前技术在进行统计分析时,误认为用户手动键入的页面地址所产生的一个上行请求和浏览器自动触发的五个上行请求都是由用户手动行为触发的,即,将一次用户行为统计成了六次用户行为。
实际上,用户手动请求链接只涉及一条上行请求(即,http://wallpic.3g.cn/special/12920/index17.aspx),其他链接请求都不是用户手动请求的,而是浏览器自动请求的,这些上行请求属于本发明中的“脏数据”。
然而,现有技术中并不存在针对这种“脏数据”的过滤方法。
发明内容
为了解决上述问题,本发明提供了一种数据过滤方法和数据过滤装置。
根据本发明的一个方面,提供了一种数据过滤方法,可以包括:获取由用户的上网行为产生的通信数据;提取该通信数据的数据特征;将提取的数据特征与预定数据特征进行匹配,以得到匹配结果;以及基于该匹配结果对该通信数据进行过滤。
根据本发明的另一方面,提供了一种数据过滤装置,可以包括:通信数据获取装置,配置用于获取由用户的上网行为产生的通信数据;数据特征提取装置,配置用于提取该通信数据的数据特征;匹配装置,配置用于将提取的数据特征与预定数据特征进行匹配,以得到匹配结果;以及过滤装置,配置用于基于该匹配结果对该通信数据进行过滤。
根据本发明的实施方式,可以至少清除通信数据中由非用户手动行为触发的上行请求,从而得到更加真实的用户上网行为。
附图说明
通过阅读参考附图描述的本发明非限制性优选实施方式,本发明的其他特征和优势将变得明显,其中:
图1示出了浏览器针对页面地址
http://wallpic.3g.cn/special/12920/index17.aspx应该呈现出的页面截屏。
图2示出了根据本发明示例性实施方式的数据过滤方法的流程图。
图3示出了从下行数据的http包体中解析出的gif文件内容。
图4示出了以文件扩展名结尾的统一资源定位符的示例性截屏。
图5A示出了无明显文件扩展名的统一资源定位符的示例性截屏。
图5B示出了针对统一资源定位符无明显文件扩展名这种情况的示例性预定数据特征截屏。
图6A示出了可由用户点击的页面链接及其统一资源定位符的示例性截屏。
图6B示出了跳转后的页面及其统一资源定位符的示例性截屏。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于张金海;姜洁丽,未经张金海;姜洁丽许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110025974.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种集成电路的侧连印刷装置
- 下一篇:滚印机
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置