[发明专利]一种电子文档结构化处理的方法和系统无效
申请号: | 201110141420.8 | 申请日: | 2011-05-30 |
公开(公告)号: | CN102479248A | 公开(公告)日: | 2012-05-30 |
发明(设计)人: | 张训军 | 申请(专利权)人: | 北京中科希望软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/24 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子 文档 结构 处理 方法 系统 | ||
技术领域
本发明涉及数字出版领域,特别涉及一种电子文档处理技术,提出了一种电子文档结构化处理的方法和系统。
背景技术
出版企业为实现其多元化、数字化出版的目标,通常需要将电子书稿进行结构化处理,即给文档内容添加结构标签,以xml形式对文档内容进行描述。目前,市面上的一些排版软件(如Microsoft Word、Adobe Indisign等)提供了为文档内容添加XML标签(Tag)的功能。但借助这些软件,标签的添加通常是以交互方式进行的,每次只能添加一个标签,处理效率低下,无法满足海量数据批量处理的需要。Indesign虽然提供了样式和标签匹配的功能,可以实现标签的批量添加,但添加的标签是没有层次关系的,同样无法达到电子文档结构化处理的要求。
发明内容
本发明的目的在于解决上述技术问题,提供一种电子文档结构化处理的方法和系统,以解决电子文档结构化的问题,本发明有效克服了现有技术无法自动为文档添加标签、不能体现文档的层次关系、处理效率低的问题。
为了解决上述技术问题,根据本发明提供的具体实施例,本发明公布了如下技术方案:
一种电子文档结构化处理的方法,包括如下步骤:
步骤S1,制定对所述电子文档进行结构化处理的标签结构;
步骤S2,段落样式识别,获取所述电子文档的段落样式信息;
步骤S3,将所述段落样式信息与所述结构标签进行匹配;
步骤S4,根据所述结构标签构造标签的层次关系。
进一步的,上述标签结构制定步骤通过标签编辑器进行。
进一步的,上述的标签结构可以存储在文本文件中、xml文件中,也可以存储在数据库中。
进一步的,上述的步骤S2段落样式识别通过排版软件提供的二次开发接口获取电子文档中的段落样式信息。
进一步的,将段落样式信息与标签进行匹配,创建标签样式对,如果在电子文档中遇到使用相同样式的文档内容都自动添加相应标签。
进一步的,上述的样式与标签的匹配步骤还包括:遍历书稿,遇到新的排版样式,即高亮显示此样式对应的文本内容。
进一步的,由用户根据文本内容选择与此样式匹配的标签,样式与标签匹配完成以后,由计算机程序根据文档内容的样式自动进行其余文档内容与标签的匹配,在匹配的过程中,记录标签对应的文档内容在文档中的位置,以构造标签的层次关系。
进一步的,上述方法还包括如下步骤,在给所述电子文档的内容加注结构标签以后,通过结构标签的名称来构造标签的层次关系。
一种电子文档结构化处理系统,包括:
标签结构制定单元,用于制定对所述电子文档进行结构化处理的标签结构;
段落样式识别单元,用于获取所述电子文档的段落样式信息;
样式与标签匹配单元,用于将所述段落样式信息与所述结构标签进行匹配;
标签层次构造单元,用于根据所述结构标签构造标签的层次关系。
与现有技术相比,本发明具有如下优点:
本发明能够实现文档结构标签的自动标注,可以高效地实现文档的结构化处理并保持文档本身的逻辑和层次关系,大大提高了图书数据的处理效率,对于一个几十页的Word文档,使用本发明提供的数据处理方法进行处理,只需几分钟时间,而通过手工方式标注的话,可能需要几十分钟或更长时间。
附图说明
图1本发明方法示意图。
图2本发明方法流程示意图。
图3本发明系统示意图。
具体实施方式
为使本发明的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明专利属于用于外部数据处理的涉及计算机程序的发明专利。本发明专利的实质是利用一个计算机程序在公知计算机上对图书数据进行处理以实现图书数据的结构化。对图书数据进行结构化处理是其要解决的技术问题,获得结构化的图书数据是其技术效果。
该数据处理方法包括以下几个步骤:
步骤S1,制定用来对电子书稿进行结构化处理的标签结构
在这一步中,需要确定使用哪些标签来对电子书稿进行结构化处理,可以编制一个标签编辑器辅助进行标签结构的制定,标签列表可以存储在文本文件中、xml文件中,也可以存储在数据库中。
步骤S2段落样式识别
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科希望软件股份有限公司,未经北京中科希望软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110141420.8/2.html,转载请声明来源钻瓜专利网。