[发明专利]一种XML压缩数据的多查询处理方法无效
申请号: | 200810200692.9 | 申请日: | 2008-09-27 |
公开(公告)号: | CN101436199A | 公开(公告)日: | 2009-05-20 |
发明(设计)人: | 周傲英;和菊珍;王晓玲 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海东亚专利商标代理有限公司 | 代理人: | 罗习群 |
地址: | 200433*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 xml 压缩 数据 查询 处理 方法 | ||
技术领域
本发明属数据库技术领域,具体涉及一种快速有效地对一个XML文档进行多查询处理的方法。采用该方法可以在分布式协作的服务器/客户端网络下,有效地克服XML文档自身的冗余问题,并高效地实现多查询处理。
背景技术
继HTML(Hyper Text Markup Language)语言之后,XML(eXtensible Markup Language)语言业已逐渐成为互联网信息的主要表示和交换工具。随着XML文档的使用日益频繁广泛,网络上越来越多的信息以XML的模式来进行存储和传递,同时一些需要传递的XML文档规模也不断增大。在有限带宽和处理能力的条件下,怎样有效的进行信息的传递,既能提高查询技术又减小对带宽的消耗,成为当前研究的热点话题之一。对XML文档进行压缩从而减小其规模成为一种可能的解决方式。由于XML文档不同于一般的文本性文档,它同时包含了数据信息和数据间的结构关系,怎样才能有效地利用XML文档的特征来进行有效的压缩,同时又不会对查询处理带来过多的冗余操作,是针对XML压缩的两个关键问题。
2000年第一种针对XML的压缩方法XMill被提出,其动机是最大程度的减小XML文档的规模。因此XMill将XML的结构和数据分割开来,先对文档抽取结构(skeleton),再对文档进行遍历,对相同路径下的所有结点归类到同一个桶中,遍历结束之后,每个桶内的数据具有相同的特性,如全部都是整数,或全都是字符串。由于针对整数、字符串和浮点数的最优压缩技术互不相同,针对分类之后得到的桶,XMill选择最适合的方法进行压缩,从而保证了整个文档的高压缩率。
不同于XMill,XMLPPM针对遍历XML文档的SAX流进行动态的压缩,这个方法通过采用了部分匹配预测(Prediction by Partial Match)方法进行压缩而得以命名。在SAX遍历的过程中,对于每个XML标签,都构造一个PPM模型进行编码。该模型包含了几个部分:Syms部分,用于存储首次出现的标签和属性(attribute)名;Elts部分,利用索引表示当前的标签并保存下来以维持原文档的结构;Atts则用于区分标签和属性,因为其中只保存了属性名和文本数据;Chars用来保存每个标签对应的数据。在Chars中的每个文本数据之前,都标注上对应元素的索引;而Atts和Chars中都通过“<n>“来维持四个模型之间的关系,从而维持模型之间的交叉依赖。通过使用PPM模型来对即将来到的字符串进行预测,XMLPPM方法实现了当前XML压缩方法中的最高压缩率。
XMill和XMLPPM通过对XML文档的数据和结构进行分离并针对数据类型选择压缩方法实现了较高的压缩率,但是这两种方法得到的压缩文档不能保存原有的结构,如果要对压缩文档进行查询,就需要将整个文档进行解压缩,而这将耗费比压缩更多的时间和空间。因此学者们转向了支持直接查询的压缩方法。2002年,针对日益广泛的手机,PDA和Palm的有限CPU,第一种同态压缩技术XGRIND得以提出。
XGRIND是一种非自适应的压缩方法,在压缩开始前,它必须采用DTD来建立字典,同时还要对原文档进行一次预扫描以搜集所有的词频信息,从而建立对应的Huffman编码器。在压缩过程中,对于文档中每个元素和属性,直接采用字典中对应的索引数进行替代。而对大量的非枚举型元素,采用已有的Huffman编码器进行编码。此外枚举型数据则直接使用二元编码。XGRIND旨在保留原文档的结构,因此压缩后的文档实现了和原文档的一一对应,也使得大部分的XPath查询能够直接在压缩文档上进行执行。但对于包含范围谓词(rangepredicate)查询,必须对压缩文档进行对应部分的局部解压缩。由于该方法只针对XML文档的冗余标签,而没有解决文档中的路径和数据重复问题,其压缩率远远低于XMill和XMLPPM。同时由于无法对所有的复杂查询进行直接解析,XGRIND的查询支持率也不尽人意。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810200692.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置