[发明专利]一种网页文本还原系统及方法无效
申请号: | 201010132456.5 | 申请日: | 2010-03-26 |
公开(公告)号: | CN101783817A | 公开(公告)日: | 2010-07-21 |
发明(设计)人: | 张晖;孙海峰;马建国 | 申请(专利权)人: | 西南科技大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/06;G06F17/30 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 林辉轮;熊晓果 |
地址: | 621010 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 文本 还原 系统 方法 | ||
技术领域
本发明涉及一种网页信息还原技术,尤其是一种网页文本的还原系统及还原方法。
背景技术
随着互联网技术的发展,网页所承载的信息量和信息种类越来越丰富,从客户所浏览的网页内容可以挖掘相当丰富的信息资源,而网页信息是由网络数据流承载的。网络数据流是指从一个源进程发送到一个目的进程的IP数据报序列,是具有某些相同属性(源IP、源端口、目的IP、目的端口、协议)的IP数据报集合,并且这些数据报的超时时间会在一个较小且固定的间隔内(比如60秒)。通过分析发现,网页的数据流有多个,而文本内容只是多个数据流中的其中一个。
网页的文本信息有多种应用研究,例如可以进行网络舆情分析、内容监管、文本挖掘等应用研究,因此就需要将网页浏览产生的大量实时数据流处理成网页文本形式。
目前获取网页内容的技术一般可以分为主动方式和被动方式。被动方式如各种网络嗅探器,将通过嗅探节点的数据进行解码还原。网络嗅探器一般仅能进行单个的数据包的解码,不具备数据流处理能力,更没有专门的网页文本还原装置。主动方式广泛用于搜索引擎,需要利用爬虫抓取网页,不能用于网络节点网页获取。
发明内容
本发明的目的是提供一网页文本还原系统及方法,这种系统是一种专门的网页文本还原装置,而且还能将网页文本文件进行储存;本发明还具有数据流的实时处理能力。
本发明的技术方案如下:
一种网页文本还原系统,本系统工作于网络节点,其包括:一IP数据包捕获装置,用于对通过网络节点处的IP数据包进行捕获;一网页文本数据流识别装置,根据定义的数据流特征识别出IP数据包的网页文本数据流;一网页文本重组装置,对网页文本数据流进行解码、重组操作,将网页文本数据流还原成文本文件;所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。
所述IP数据包捕获装置,包括一数据包镜像模块,用于将通过网络节点的IP数据报备份下来;一流抽取模块,接于数据包镜像模块后,用于将各独立的IP数据包按IP数据流属性进行组合,并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别。
所述网页文本数据流识别装置,包括一网页数据流识别模块,用于将组合后的IP数据流根据流特征进行网页数据流的识别;一数据流特征库,与网页数据流识别模块连接,为网页数据流识别模块的网页数据流识别提供流特征;一网页数据流分割模块,与页数据流识别模块连接,用于将通过识别的网页数据流从IP数据流中分割出来,并将分割出来的网页文本数据传送至网页文本重组装置。
本发明还包括一网页文本存储装置,所述网页文本存储装置与网页文本重组装置连接,用于将还原的网页文本文件进行保存。更具体的,所述网页文本存储装置包括硬盘或/和数据库。
一种网页文本还原方法,包括步骤:
步骤S1,对存储http网页数据流的缓存区进行初始化处理;
步骤S2,获取一个IP数据包,并根据流特征进行http数据过滤,然后根据http协议标准进行数据包的头域分析,所述的IP数据流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1 200、Content-Type的text/html;
步骤S3,根据分析结果判断是否为网页数据流的IP数据包,若不是,进行步骤S6,若是,则进行:
步骤S4,判断网页数据流的IP数据包是否是按序到达的,若是,进行步骤S7,若不是,进行:
步骤S5,对失序包进行处理,使之按序列号重新排序后进行步骤S7;
步骤S6,创建新的网页数据流;
步骤S7,判断是否为网页数据流的最后一个IP数据包,若不是,返回进行步骤S2,若是,则进行:
步骤S8,进行网页文本信息的还原。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明网页文本还原系统在网络中应用原理图;
图2是本发明网页文本还原系统原理框图;
图3是本发明网页文本还原方法流程图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南科技大学,未经西南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010132456.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:五氟化磷和六氟磷酸盐的制造方法
- 下一篇:具有分配挡板的冰箱