[发明专利]一种可扩展标记语言XML文档的压缩、解压方法和装置在审

专利信息
申请号: 202010418604.3 申请日: 2020-05-18
公开(公告)号: CN111797596A 公开(公告)日: 2020-10-20
发明(设计)人: 薛军超 申请(专利权)人: 冠群信息技术(南京)有限公司
主分类号: G06F40/146 分类号: G06F40/146;H03M7/30
代理公司: 南京瑞华腾知识产权代理事务所(普通合伙) 32368 代理人: 梁金娟
地址: 210019 江苏省南京市*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 扩展 标记 语言 xml 文档 压缩 解压 方法 装置
【说明书】:

发明提出了一种可扩展标记语言XML文档的压缩、解压方法和装置,包括以下步骤:接收并读取压缩前XML文档;分别对XML文档中的标记文字串和属性文字串进行使用次数统计;根据统计结果,将所述标记文字串和属性文字串分别进行排序;根据排序结果,将所述标记文字串或属性文字串与映射字符进行依次映射,并建立映射表;根据所述映射表,将XML文档中的所述标记文字串或属性文字串与对应的所述映射字符进行替换,获得压缩后XML文档。本发明通过对大量重复出现的、较长的标记和属性字符串进行单字节、最多双字节映射,从而达到压缩的目的,显著减少了标记及属性重复文字串的存储占用空间,因此达到了压缩的效果。

技术领域

本发明涉及计算机技术领域,具体而言,涉及一种可扩展标记语言XML文档的压缩、解压方法和装置。

背景技术

OFD,开放版式文档(Open Fixed-layout Document,缩写:OFD),是我国国家标准《GB/T 33190-2016电子文件存储与交换格式版式文档》定义的我国版式文档格式。OFD适应了我国信息化建设的需要,正在成为我国各行各业信息化应用的基础标准之一。所谓“版式文档”,是指它描述的页面内容具有固定的位置、大小、颜色等外观信息,确保页面内容在所有终端的显示效果完全固定、一致。

OFD是一个压缩包文件,采用ZIP压缩格式,文件后缀名是“.ofd”,因此从本质上讲OFD就是一个ZIP压缩包。依据标准定义,OFD包含了两种类型的数据文件:一种是以XML格式存储的文档及页面信息,它定义了版式文档的基础信息;另一种是以其它格式存储的资源信息,比如字体、图像、多媒体等格式的资源文件。

XML,可扩展标记语言(Extensible Markup Language,缩写:XML),是国际流行的通用数据描述语言格式,它具有简单、易于理解、易用应用等众多优点。OFD采用它作为版式文档的基础信息描述格式,可以说是OFD的核心数据格式。

XML的数据标记方式也存在不足的地方,在OFD当中,大量的XML文件采用相同的数据标记方式,这些数据标记都是可读的文字串,也就是说OFD包含了大量重复出现的文字串,这些文字串是因为XML标记语言的格式特性形成的,导致OFD文档的体积较大,在压缩或解压时,会消耗较大的系统内存和存储空间。

发明内容

鉴于上述问题,本发明提供了一种可扩展标记语言XML文档的压缩、解压方法和装置。

为解决上述技术问题,本发明采用的技术方案是:一种可扩展标记语言XML文档的压缩方法,包括以下步骤:接收并读取压缩前XML文档;分别对XML文档中的标记文字串和属性文字串进行使用次数统计;根据统计结果,将所述标记文字串和属性文字串分别进行排序;根据排序结果,将所述标记文字串或属性文字串与映射字符进行依次映射,并建立映射表;根据所述映射表,将XML文档中的所述标记文字串或属性文字串与对应的所述映射字符进行替换,获得压缩后XML文档。

作为优选方案,所述将标记文字串和属性文字串分别进行排序,具体包括:将所述标记文字串和属性文字串按照使用次数从高到低分别进行排序;对于使用次数相同的标记文字串或属性文字串,按照相应字符串的字符数量高低进行排序。

作为优选方案,所述使用次数统计采用计数器进行统计,所述标记文字串或属性文字串每出现一次,则在相应文字串数量上加一。

作为优选方案,所述映射表包括标记映射表和属性映射表,所述标记映射表和属性映射表以独立文件形式存储于压缩包中。

作为优选方案,所述映射字符为单字节字符,所述映射字符数量为115个,其符合XML标准定义且可作为标记名称使用。

作为优选方案,所述映射字符为双字节字符,所述双字节字符的第一个字节为下划线字符“_”,其第二个字节为单字节字符;或所述双字节字符的第一个字节和第二个字节均为单字节字符。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于冠群信息技术(南京)有限公司,未经冠群信息技术(南京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010418604.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top