[发明专利]一种网页文本还原系统及方法无效

专利信息
申请号: 201010132456.5 申请日: 2010-03-26
公开(公告)号: CN101783817A 公开(公告)日: 2010-07-21
发明(设计)人: 张晖;孙海峰;马建国 申请(专利权)人: 西南科技大学
主分类号: H04L29/08 分类号: H04L29/08;H04L29/06;G06F17/30
代理公司: 成都九鼎天元知识产权代理有限公司 51214 代理人: 林辉轮;熊晓果
地址: 621010 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 文本 还原 系统 方法
【说明书】:

技术领域

发明涉及一种网页信息还原技术,尤其是一种网页文本的还原系统及还原方法。

背景技术

随着互联网技术的发展,网页所承载的信息量和信息种类越来越丰富,从客户所浏览的网页内容可以挖掘相当丰富的信息资源,而网页信息是由网络数据流承载的。网络数据流是指从一个源进程发送到一个目的进程的IP数据报序列,是具有某些相同属性(源IP、源端口、目的IP、目的端口、协议)的IP数据报集合,并且这些数据报的超时时间会在一个较小且固定的间隔内(比如60秒)。通过分析发现,网页的数据流有多个,而文本内容只是多个数据流中的其中一个。

网页的文本信息有多种应用研究,例如可以进行网络舆情分析、内容监管、文本挖掘等应用研究,因此就需要将网页浏览产生的大量实时数据流处理成网页文本形式。

目前获取网页内容的技术一般可以分为主动方式和被动方式。被动方式如各种网络嗅探器,将通过嗅探节点的数据进行解码还原。网络嗅探器一般仅能进行单个的数据包的解码,不具备数据流处理能力,更没有专门的网页文本还原装置。主动方式广泛用于搜索引擎,需要利用爬虫抓取网页,不能用于网络节点网页获取。

发明内容

本发明的目的是提供一网页文本还原系统及方法,这种系统是一种专门的网页文本还原装置,而且还能将网页文本文件进行储存;本发明还具有数据流的实时处理能力。

本发明的技术方案如下:

一种网页文本还原系统,本系统工作于网络节点,其包括:一IP数据包捕获装置,用于对通过网络节点处的IP数据包进行捕获;一网页文本数据流识别装置,根据定义的数据流特征识别出IP数据包的网页文本数据流;一网页文本重组装置,对网页文本数据流进行解码、重组操作,将网页文本数据流还原成文本文件;所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。

所述IP数据包捕获装置,包括一数据包镜像模块,用于将通过网络节点的IP数据报备份下来;一流抽取模块,接于数据包镜像模块后,用于将各独立的IP数据包按IP数据流属性进行组合,并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别。

所述网页文本数据流识别装置,包括一网页数据流识别模块,用于将组合后的IP数据流根据流特征进行网页数据流的识别;一数据流特征库,与网页数据流识别模块连接,为网页数据流识别模块的网页数据流识别提供流特征;一网页数据流分割模块,与页数据流识别模块连接,用于将通过识别的网页数据流从IP数据流中分割出来,并将分割出来的网页文本数据传送至网页文本重组装置。

本发明还包括一网页文本存储装置,所述网页文本存储装置与网页文本重组装置连接,用于将还原的网页文本文件进行保存。更具体的,所述网页文本存储装置包括硬盘或/和数据库。

一种网页文本还原方法,包括步骤:

步骤S1,对存储http网页数据流的缓存区进行初始化处理;

步骤S2,获取一个IP数据包,并根据流特征进行http数据过滤,然后根据http协议标准进行数据包的头域分析,所述的IP数据流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1 200、Content-Type的text/html;

步骤S3,根据分析结果判断是否为网页数据流的IP数据包,若不是,进行步骤S6,若是,则进行:

步骤S4,判断网页数据流的IP数据包是否是按序到达的,若是,进行步骤S7,若不是,进行:

步骤S5,对失序包进行处理,使之按序列号重新排序后进行步骤S7;

步骤S6,创建新的网页数据流;

步骤S7,判断是否为网页数据流的最后一个IP数据包,若不是,返回进行步骤S2,若是,则进行:

步骤S8,进行网页文本信息的还原。

附图说明

本发明将通过例子并参照附图的方式说明,其中:

图1是本发明网页文本还原系统在网络中应用原理图;

图2是本发明网页文本还原系统原理框图;

图3是本发明网页文本还原方法流程图。

具体实施方式

本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南科技大学,未经西南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010132456.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top