[发明专利]web页面分割方法及装置有效
申请号: | 201310069892.6 | 申请日: | 2013-03-05 |
公开(公告)号: | CN104035932B | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 曾彬 | 申请(专利权)人: | 中国移动通信集团湖南有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/08 |
代理公司: | 北京同达信恒知识产权代理有限公司11291 | 代理人: | 郭润湘 |
地址: | 410015 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | web 页面 分割 方法 装置 | ||
技术领域
本发明涉及网络通信系统,具体涉及一种web页面分割方法及装置。
背景技术
网络流量测量和网络性能优化中一项重要指标是页面响应速度,通过测量属于同一个页面的数据包的传输速度来测量页面响应速度,确定属于同一个页面的数据包的技术手段被称为web页面分割。
目前,web页面分割的方法包括两种,解析HTTP方式和不解析HTTP方式:
第一,解析HTTP方式,针对网络流量,在流表中记录各个请求数据包的HTTP头部的REFRER字段和各个请求数据包的目的URL,将请求嵌入对象文件(例如JPG文件、PNG文件等等)的请求数据包的REFERER字段的域值即URL与请求容器对象文件(例如HTML文件、HTM文件、SHTML文件等等)的请求包的目的URL进行对比,若二者相同则表明该嵌入对象文件属于该容器对象文件的目的URL所指示的页面。并通过根据请求数据包和响应数据包之间的对应关系组合出属于同一个web页面的数据包,也即对不同的web页面进行了分割。
第二,不解析HTTP方式,基于大多数浏览器发送的请求容器对象文件的请求数据包的大小显著地大于请求嵌入对象文件的请求数据包的大小这一观察事实,并且认为下一个页面的请求容器对象的请求数据包到来之前,上一个页面最后一个响应数据包已经传输完成,基于这两个前提,根据请求数据包的大小将请求容器对象文件的请求数据包识别出来,作为当前新的web页面的第一个数据包,并将该请求容器对象的请求数据包之前的一个数据包作为当前web页面的上一个web页面的数据包,以此来进行web页面分割。
上述第一种方式的优点在于页面分割的准确率高,缺点在于维护流表的开销大、占用的处理资源过多,并且不能适用于REFERER头部无法获取以及嵌套页面的情况。
上述第二种方式的优点在于不用维护流表开销较小、能够节省处理资源,也能够适用于REFERER头部不能获取的情况,但是,该方法的缺点在于准确率低于上述第一种方法的准确率。
可见,在现有的web页面分割的方法中,存在获得较高的分割准确率和占用较少的处理资源不能兼顾的问题。
发明内容
有鉴于此,本发明实施例提供了一种web页面分割方法及装置,用以解决现有技术中的web页面分割方法不能兼顾获得较高的分割准确率和占用较少的处理资源的问题。
本发明实施例技术方案如下:
一种web页面分割方法,包括:在预定时间段内,根据web客户端发送给web服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;其中,所述请求数据包用于请求获取构成web页面的文件,所述请求数据包的数据包属性值集合包括:相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;确定属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合;所述文件类型包括:容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件或PDF文件;根据所确定的属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团湖南有限公司,未经中国移动通信集团湖南有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310069892.6/2.html,转载请声明来源钻瓜专利网。