[发明专利]一种基于XML描述的复杂文档自动生成方法有效
申请号: | 201510063357.9 | 申请日: | 2015-02-06 |
公开(公告)号: | CN104598635B | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 吴利;董国良;何曼;徐小春 | 申请(专利权)人: | 无锡江南计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/21 |
代理公司: | 北京众合诚成知识产权代理有限公司11246 | 代理人: | 龚燮英 |
地址: | 214083 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 xml 描述 复杂 文档 自动 生成 方法 | ||
技术领域
本发明涉及文档生成领域,更具体地说,本发明涉及一种基于XML(Extensible Markup Language,可扩展标记语言)描述的复杂文档自动生成方法。
背景技术
一直以来,文档都是承载信息的重要工具之一,是人与人之间互通信息的重要手段。因所要描述信息内容的不同,文档的种类缤纷多彩,有以文字信息为主的文本文件(TXT)、富文本文件(RTF、DOC),有以图表数据为主的电子表格文件(Excel),有以图像演示为主的演示文件(PPT),有以图形绘制为主的绘图文件(Visio)。并且,因各种存储方式和各种工具解析方式的不同,文档及其信息的格式也存在着千差万别。
随着政府、企业办公自动化步伐的逐步推进,对信息内容的多样性要求越来越高,同时对信息格式的规范性要求也越来越严格,同样对信息向文档自动化转化的需求也越来越复杂。如何既能满足文档内容的丰富多样性,又能满足文档格式的规范化和标准化,同时又保证较高效的性能输出,是文档自动生成技术不懈探索和努力的目标。
现有的文档生成技术一般依赖于特定的工具或组件,例如利用Microsoft Office的DCOM组件进行Word、Excel、PowerPoint等文档的生成,利用Office OpenXml SDK进行Word、Excel、PowerPoint等文档的生成,利用iText java类库生成PDF文档,利用各种编程语言的基础库函数生成Html、RTF、Text等格式要求较简单的文档。
传统的文档自动生成技术,受文档查看工具和文档编码格式的限制,对文档自动生成开发工具和文档查看工具的依赖性较大。简单文档对格式要求不高,自动生成的手段也比较灵活。但对于复杂文档而言,其内容信息的描述受到文档模板格式、样式的约束,同时文档模板格式、样式也反制于文档内容信息。
随着Office OpenXml标准的确立,对于Word、Excel、PowerPoint等复杂文档而言,无论是文档内容信息,还是文档模板格式、样式,都可以统一地使用Xml语言进行描述,这就给复杂文档的内容和样式的分离带来了可能性。
然而,Office OpenXml标准主要是由Microsoft公司提出的,其提供的Office OpenXml SDK开发工具,依赖于Windows操作系统环境及Visual Studio编程开发环境,不利于Office OpenXml标准的推广和跨平台使用。
发明内容
本发明所要解决的技术问题是针对现有技术中存在上述缺陷,提供一种基于Xml描述的复杂文档的自动生成技术,其能够实现文档大纲、文档数据和文档样式分离,并且不受操作系统环境和文档工具限制自动生成复杂文档。
根据本发明,提供了一种基于XML描述的复杂文档自动生成方法,包括:首先,执行第一步骤以获取文档大纲模板描述;随后,执行第二步骤以便对文档大纲模板进行解析;其中在第二步骤中,根据文档数据和文档样式模板定义信息控制进行第三步骤、第四步骤和第五步骤以完成文档相关数据和样式模板的获取;随后,根据文档架构描述和关联索引信息控制第六步骤、第七步骤和第八步骤以完成文档数据获取及其格式的转换;接着,根据文档内容与样式关联信息执行第九步骤和第十步骤以完成文档数据与样式的匹配及组装,最后根据文档的完成情况进入第十一步骤以完成最终文档的输出。
优选地,第三步骤用于获取文档数据组模板,数据组模板描述了文档内容的组合和获取方法以及文档内容分组的样式索引;第四步骤用于获取文档样式组模板,文档样式组模板定义了文档内容样式索引,并且对文档内容样式的具体标识进行了编排;第五步骤用于获取文档的属性模板。
优选地,第六步骤用于根据文档大纲模板中文档架构描述和关联索引信息涉及的宏观的文档内容分组信息,从第三步骤获取到的文档数据组模板中提取相应的文档内容分组描述并进行解析,获取文档内容数据的模板信息。
优选地,第七步骤用于根据第六步骤获取到的文档内容数据的模板信息,获取文档数据模板。
优选地,第八步骤用于根据第七步骤获取到的文档数据模板,获取原始数据,并将原始数据进行格式转换。
优选地,第九步骤用于将第八步骤格式转换后的文档数据与第四步骤获取到文档内容样式索引进行关联分析,根据文档内容分组关联的文档内容样式索引,以及文档具体内容关联的文档内容样式索引序号,将格式转换后的文档数据中的文档具体内容与具体的文档内容样式标识进行匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡江南计算技术研究所,未经无锡江南计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510063357.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于3D打印机的光照装置
- 下一篇:复合管封口装置及复合管封口系统