[发明专利]一种网页文本还原系统及方法无效

专利信息
申请号: 201010132456.5 申请日: 2010-03-26
公开(公告)号: CN101783817A 公开(公告)日: 2010-07-21
发明(设计)人: 张晖;孙海峰;马建国 申请(专利权)人: 西南科技大学
主分类号: H04L29/08 分类号: H04L29/08;H04L29/06;G06F17/30
代理公司: 成都九鼎天元知识产权代理有限公司 51214 代理人: 林辉轮;熊晓果
地址: 621010 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 文本 还原 系统 方法
【权利要求书】:

1.一种网页文本还原系统,本系统工作于网络节点,其特征在于,包括

一IP数据包捕获装置,用于对通过网络节点处的IP数据包进行捕获;

一网页文本数据流识别装置,根据定义的数据流特征识别出IP数据包的网页文本数据流;

一网页文本重组装置,对网页文本数据流进行解码、重组操作,将网页文本数据流还原成文本文件;

所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接;

所述IP数据包捕获装置,包括

一数据报镜像模块,用于将通过网络节点的IP数据报备份下来;

一流抽取模块,接于数据报镜像模块后,用于将各独立的IP数据报按IP数据流属性进行组合,并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别;

所述网页文本数据流识别装置,包括

一网页数据流识别模块,用于将组合后的IP数据流根据流特征进行网页数据流的识别;

一数据流特征库,与网页数据流识别模块连接,为网页数据流识别模块的网页数据流的识别提供流特征;

一网页数据流分割模块,与网页数据流识别模块连接,用于将通过识别的网页数据流从IP数据流中分割出来,并将分割出来的网页文本数据传送至网页文本重组装置。

2.根据权利要求1所述的网页文本还原系统,其特征在于,所述流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1 200、Content-Type的text/html。

3.根据权利要求1所述的网页文本还原系统,其特征在于,包括一网页文本存储装置,所述网页文本存储装置与网页文本重组装置连接,用于将还原的网页文本文件进行保存。

4.根据权利要求3所述的网页文本还原系统,其特征在于,所述网页文本存储装置包括硬盘或/和数据库。

5.一种网页文本还原方法,其特征在于,包括步骤:

步骤S1,对存储http网页数据流的缓存区进行初始化处理;

步骤S2,对通过网络节点处的IP数据包进行捕获,获取一个IP数据包,并根据流特征进行http数据过滤,然后根据http协议标准进行数据包的头域分析;

步骤S3,根据分析结果判断是否为网页数据流的IP数据包,若不是,进行步骤S6,若是,则进行:

步骤S4,判断网页数据流的IP数据包是否是按序到达的,若是,进行步骤S7,若不是,进行:

步骤S5,对失序包进行处理,使之按序列号重新排序后进行步骤S7;

步骤S6,创建新的网页数据流;

步骤S7,判断是否为网页数据流的最后一个IP数据包,若不是,返回进行步骤S2,若是,则进行:

步骤S8,进行网页文本信息的还原。

6.根据权利要求5所述的网页文本还原方法,其特征在于,步骤S2所述的IP数据流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1 200、Content-Type的text/html。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南科技大学,未经西南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010132456.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top