[发明专利]一种针对Gzip压缩数据的过滤方法及系统有效
申请号: | 201711070628.9 | 申请日: | 2017-11-03 |
公开(公告)号: | CN108090115B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 刘燕兵;王歧;卢毓海;张春燕;袁方方;谭建龙;郭莉 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/174;H04L67/02;H04L67/06 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 余长江 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 gzip 压缩 数据 过滤 方法 系统 | ||
本发明提出一种针对Gzip压缩数据的过滤方法,根据Gzip压缩数据的特点,并结合KR多模式匹配算法,提升Gzip压缩数据的过滤速度,同时提高处理的实时性和安全性。本发明还提出一种针对Gzip压缩数据的过滤系统,用于执行该方法。
技术领域
本发明属于计算机技术领域,具体涉及一种针对Gzip压缩数据的过滤方法及系统。
背景技术
模式匹配技术是入侵检测系统和网络应用防火墙的关键技术之一,但是随着信息时代的发展,模式匹配技术面临新的问题:数据量急剧增加,网络流复杂多变,匹配的实时性不能满足等。所以面对复杂多变的网络数据,模式匹配技术的性能需要进一步提升。
为了不断提升网络带宽,除了提高硬件传输能力以外,压缩数据传输逐渐被重视起来。HTTP压缩是指将Web文本数据在服务器压缩后发送给浏览器的传输方式。目前,Yahoo!、Google、YouTube、Baidu、腾讯等知名网站都使用HTTP压缩传输的传输方式。在2017年,根据Alexa网站的前1000万网址的流量统计,有71.4%的网站使用了HTTP压缩传输,目前仍然呈现上升趋势。
HTTP压缩传输过程如图1所示,首先,客户端发送HTTP请求给服务器,其中注明Accept-Encoding字段,表示可以接受的压缩方式;其次,客户端接受请求,将请求的文本文件压缩;再次,返回HTTP报文,添加压缩数据,附带Content-Encoding字段,表示压缩方式;最后,客户端接受数据,解压并渲染给用户。在常见的Web文本(HTML,CSS,JavaScript)中存在大量的相同标签和语句,所以HTTP报文压缩后可以达到非常好的效果;根据实验测试,Web文本压缩后可以减少70%以上的空间大小。
在HTTP 1.1协议中,可以使用Gzip、DEFLATE等压缩算法。其中Gzip压缩算法是HTTP压缩的常用算法,占到了98.9%左右。
Gzip,全称是GNU zip,是一种文件压缩程序,作者是Jean-loup Gailly和MarkAdler,于1992年公开发表。Gzip是对DELATE的封装,包括两个部分:LZ77压缩和哈夫曼编码压缩,其中LZ77是主要部分。
现有的多模式匹配算法过滤压缩数据是比较困难的。如图2A、图2B所示,面对HTTP压缩数据,图2A的不做处理和图2B的拒绝接受都会带来安全隐患或者性能损耗。目前防火墙采用“解压+扫描”的方式对压缩数据进行过滤,如图2C所示。
“解压+扫描”的方式处理HTTP压缩流量的流程如下:当获取一个HTTP数据包时,通过Gzip解压,随后在解压后的数据上进行扫描。这种方式存在很多问题:首先,“解压+扫描”将检测过程分为两个阶段,大大降低了检测的实时性;其次,如果可以将压缩文件全部解压,有“解压炸弹”的风险,即解压率过大,导致解压过程大量占用内存和CPU使用率。例如,如果文本是1GB的比特位都是1,压缩后仅为1MB左右,那么在解压过程中必然占用大量的内存空间和CPU运算,发生“解压炸弹”。更重要的是,LZ77算法通过减少重复数据的方式压缩文本数据,结合压缩数据的性质和模式串匹配算法的特点,可以跳跃一些数据,提高匹配速度;而“解压+扫描”的方式完全忽略了压缩数据的特性。
压缩匹配是解决这一问题的有效途径,压缩匹配是指针对压缩数据进行模式匹配时,通过不解压或者局部解压的方式,对压缩数据进行模式匹配。压缩匹配算法通过利用压缩匹配的特点提高对压缩数据的匹配效率。
综上所述,目前防火墙通过“解压+扫描”的方式处理HTTP压缩流量,即当获取一个HTTP数据包时,通过Gzip解压,随后在解压后的数据上进行扫描。这种方式存在很多问题:
1.“解压+扫描”将检测过程分为两个阶段,大大降低了检测的实时性;
2.如果将压缩文件全部解压,有“解压炸弹”的风险,即解压率过大,导致解压过程大量占用内存和CPU使用率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711070628.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置