[发明专利]一种网页文本还原系统及方法无效
申请号: | 201010132456.5 | 申请日: | 2010-03-26 |
公开(公告)号: | CN101783817A | 公开(公告)日: | 2010-07-21 |
发明(设计)人: | 张晖;孙海峰;马建国 | 申请(专利权)人: | 西南科技大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/06;G06F17/30 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 林辉轮;熊晓果 |
地址: | 621010 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 文本 还原 系统 方法 | ||
1.一种网页文本还原系统,本系统工作于网络节点,其特征在于,包括
一IP数据包捕获装置,用于对通过网络节点处的IP数据包进行捕获;
一网页文本数据流识别装置,根据定义的数据流特征识别出IP数据包的网页文本数据流;
一网页文本重组装置,对网页文本数据流进行解码、重组操作,将网页文本数据流还原成文本文件;
所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接;
所述IP数据包捕获装置,包括
一数据报镜像模块,用于将通过网络节点的IP数据报备份下来;
一流抽取模块,接于数据报镜像模块后,用于将各独立的IP数据报按IP数据流属性进行组合,并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别;
所述网页文本数据流识别装置,包括
一网页数据流识别模块,用于将组合后的IP数据流根据流特征进行网页数据流的识别;
一数据流特征库,与网页数据流识别模块连接,为网页数据流识别模块的网页数据流的识别提供流特征;
一网页数据流分割模块,与网页数据流识别模块连接,用于将通过识别的网页数据流从IP数据流中分割出来,并将分割出来的网页文本数据传送至网页文本重组装置。
2.根据权利要求1所述的网页文本还原系统,其特征在于,所述流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1 200、Content-Type的text/html。
3.根据权利要求1所述的网页文本还原系统,其特征在于,包括一网页文本存储装置,所述网页文本存储装置与网页文本重组装置连接,用于将还原的网页文本文件进行保存。
4.根据权利要求3所述的网页文本还原系统,其特征在于,所述网页文本存储装置包括硬盘或/和数据库。
5.一种网页文本还原方法,其特征在于,包括步骤:
步骤S1,对存储http网页数据流的缓存区进行初始化处理;
步骤S2,对通过网络节点处的IP数据包进行捕获,获取一个IP数据包,并根据流特征进行http数据过滤,然后根据http协议标准进行数据包的头域分析;
步骤S3,根据分析结果判断是否为网页数据流的IP数据包,若不是,进行步骤S6,若是,则进行:
步骤S4,判断网页数据流的IP数据包是否是按序到达的,若是,进行步骤S7,若不是,进行:
步骤S5,对失序包进行处理,使之按序列号重新排序后进行步骤S7;
步骤S6,创建新的网页数据流;
步骤S7,判断是否为网页数据流的最后一个IP数据包,若不是,返回进行步骤S2,若是,则进行:
步骤S8,进行网页文本信息的还原。
6.根据权利要求5所述的网页文本还原方法,其特征在于,步骤S2所述的IP数据流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1 200、Content-Type的text/html。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南科技大学,未经西南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010132456.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:五氟化磷和六氟磷酸盐的制造方法
- 下一篇:具有分配挡板的冰箱