[发明专利]压缩与解压缩结构化文档的方法和装置无效
申请号: | 200680026324.6 | 申请日: | 2006-07-20 |
公开(公告)号: | CN101223699A | 公开(公告)日: | 2008-07-16 |
发明(设计)人: | 塞德里克·斯纳;菲利普·迪库托斯;罗宾·贝尔洪 | 申请(专利权)人: | 易斯普维 |
主分类号: | H03M7/30 | 分类号: | H03M7/30 |
代理公司: | 北京连和连知识产权代理有限公司 | 代理人: | 张春媛 |
地址: | 法国*** | 国省代码: | 法国;FR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 压缩 解压缩 结构 文档 方法 装置 | ||
技术领域
本发明总体上涉及用于传送、储存、检索和显示数据的计算机系统领域。具体地,涉及用于压缩和解压缩包含具有许多属性和/或子元素的大量结构化元素的结构化文档的方法和系统。
它具体用于但不限于处理、传送、存储和读取结构化多媒体文档、数字或视频图像或图像序列、电影或视频程序,更一般地,如果文档包含数字或视频图像,则在通过数据传送网络互连的处理器单元之间、或在处理器单元和存储单元之间、或实际上在处理器单元与例如电视机的播放单元之间任意传输该文档。
背景技术
以该方法处理和传送的文档越来越多地包含大量集合在一个结构中的不同类型的数据。结构化文档是一组信息元素,每一个都与一种类型和属性相关且主要以分层的关系互联。这种文档采用标记语言,例如标准通用标记语言(SGML)、超文本标记语言(HTML)、或扩展标记语言(XML),具体用于区分构成文档的信息的多种元素。而在“线性”文档中,文档的内容信息是与布局信息和类型信息混在一起的。
结构化文档中包括还称作“标签”的标记,用于区分文档中的不同信息元素。对于SGML、XML或HTML格式,这些标签具有“<XXXX>”和“</XXXX>”的形式,第一个标签“XXXX”标记一个信息元素的开始,第二个标签“</XXXX>”标记上述元素的结束。信息元素本身可以由大量属性和还称作“子元素”的底层信息元素组成。因而结构化文档表现为树状或分层结构,每个节点代表一个信息元素并连接到更高的层中的节点,更高的层表示含有底层信息元素的信息元素。位于上述树状结构的分支末端的节点表示含有预定的非结构类型的数据的信息元素,该数据不能被分为信息子元素。
因而,结构化文档含有通常以文本形式表示的区分标记或标签,上述标签定义本身可以含有由标签区分的其他信息子元素的信息元素或子元素。
但是,例如XML的标记语言是冗长的语言,因而不能被有效地处理,并且其传送或存储的成本高。此外,许多软件程序容易产生非常大的结构化文档。特别是生成HTML文档和例如场景描述、美术、技术制图、简图或类似物的数字图像文档的软件程序的实例。由图形程序产生的文档包括描述大量点、直线和曲线的图形数据。在上述图形文档中,图形目标由图形结构化元素采用例如描述二维矢量或混合矢量/栅格图形目标的SVG(Scalable Vector Graphics,可缩放矢量图形)语言描述。
因为拟将结构化文档通过数字网络存储和传送,所以需要减小上述结构化文档的大小。
减小结构化文档的大小的公知解决方法是对文档实施压缩处理。在这方面,ISO/IEC 15938-1(MPEG-7——运动图像专家组)或者最近的ISO/IEC 23001-1提出了一种方法和二进制格式,用于编码(压缩)XML结构化文档以及解码上述二进制格式。该标准具体地被设计为处理高度结构化的数据,例如多媒体元数据。
但是,一些结构化元素典型地具有大量强制或非强制属性和/或子元素,而实际上上述结构化元素只有少部分存在于文档中。将上述结构化元素压缩到二进制数据流中时,元素中没有的每个属性或子元素应当至少被编码到表示该属性或元素缺少的二进制位标志中。因而具有大量属性或子元素的结构化文档的二进制编码效率不高。
发明内容
本发明一实施例基于一观测结果,即许多文档具有大量的类型相同的、仅属性或子元素的数目稍有不同的元素,减小利用MPEG-7二进制编码的结构化文档的大小。
因而,本发明一实施例提供了一种压缩结构化文档的方法,上述结构化文档具有树状结构,树状结构包含互相嵌套的结构化元素,每一个结构化元素都与参引(referencing)信息元素的结构的元素类型标识符相关,根据元素的类型,每个元素包含由名称、值所定义的属性,以及可以定义从原始元素类型中派生、并仅包含原始类型的一部分属性和值域的简化的元素类型;
对于文档中为原始类型的每个元素,在该元素与文档中原始类型的前一元素的不同之处仅在于简化类型的每个属性值或其存在(presence)、以及元素的值域时,将元素的类型标识符替换成简化类型标识符,并从元素中除去不属于简化类型的属性和值域。
根据本发明一实施例,压缩方法包含根据结构化文档提供二进制数据流的编码步骤。
根据本发明一实施例,二进制数据流包含用于结构化文档的每个元素的:
指明元素的类型标识符的二进制数,以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于易斯普维,未经易斯普维许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680026324.6/2.html,转载请声明来源钻瓜专利网。