[发明专利]一种基于可配置的WORD文档结构化提取方法在审
申请号: | 201410492079.4 | 申请日: | 2014-09-23 |
公开(公告)号: | CN104199975A | 公开(公告)日: | 2014-12-10 |
发明(设计)人: | 詹卫许;于晓义;董灿;吴方权;陈彬;胡俊杨;陈晓洪;李瑜 | 申请(专利权)人: | 中国南方电网有限责任公司;云南云电同方科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 昆明大百科专利事务所 53106 | 代理人: | 何健 |
地址: | 510613 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 配置 word 文档 结构 提取 方法 | ||
技术领域
本发明涉及对WORD文档结构化提取的技术领域,具体涉及可配置方式的WORD文档结构化提取的计算机方法。
背景技术
现代信息化社会中,通过计算机来管理资料是所有企业都需要面对的问题。一个企业在信息化过程中,通常都是由文档管理到数据库管理的一个过程转换,怎样将积累的文档资源转化到数据库中,在提高效率的同时也要保证质量。如果采用人工的方式转换,对于成千上万的文档资料来说,难度是相当大的,而且人工转换的方式出现错误的概率也很大,数据质量也难于保障。如何通过一种计算机的数据提取方式,实现一种可动态配置文档目录结构的,将WORD文档通过结构化技术实现数据提取?在降低工作难度、提高工作效率的同时也保证数据转换的质量。
基于以上的这些原因,需要一个能够对WORD文档实现可配置的结构化提取的通用计算机方法,能够验证这些文档的合规性,并提取相应文档中的内容,实现文档数据的结构化。
发明内容
本发明正是为了解决WORD文档结构化提取的难题,提出一种基于可配置的WORD文档结构化提取方法,该方法具有便捷操作、方便使用的特点,同时能够验证文档的合规性,保障数据质量。
实现本发明的技术方案如下:
一种基于可配置的WORD文档结构化提取方法,步骤为:
步骤一、定义可配置的模板文件。在读取Word文档时,需要定义一个word模板文件,用来定义待读取文档的结构,和需要提取word的内容。模板文件需要定义的内容有:
1)、定制文档的结构,通过采用xml技术,定制文件的树型结构内容,通过XML结构实现可配置的定义文档的层级结构,每个层级作为配置文件的一个节点。节点的类型包括:标题、文本、表格、图片;
2)、配置节点的属性,根据各节点的实际业务需求,配置标题节点的属性,包括标题名、标题编号、是否为可循环出现的标题;
3)、定义模板节点的校验,或者读取的数据应该存放到数据库表的哪个字段中;
步骤二、根据第一步定义了模板文件为基准,检测待读取的Word文档。实现过程包含以下步骤:
1)、加载模板文件,并遍历其中的所有节点。根据XML定义出来的文档结构是一个树型结构,遍历过程中需要根据这个树型来遍历,及树型的深度遍历;
2)、根据当前的节点类型来进行不同的加载:
2.1 标题节点:根据模板节点中的标题号定位到具体的文档位置,如果不能定位则表示在模板中的标题没在文档中,同时根据这个节点的属性‘是否为可选’来判断是否需要输出日志信息;
2.2 文本节点:读取Word文档中对应的文本内容,并依据模板中的节点定义,把读取的数据保存到对应数据库表的字段中;
2.3 表格节点:根据模板中定义的表格列来验证,文档中对应的位置的表格是否符合模板定义,如果符合则读取数据并保存到数据库表的字段中;
2.4 图片节点:读取Word文档中对应的图片内容,并依据模板中的节点定义,把读取的数据保存到对应数据库表的字段中。
本发明的有益效果是:
本发明通过采用XML技术,解决了WORD文档目录结构可配置的问题,通过定制模板的不同类型节点及定义节点的属性,能够根据业务需求进行不同类型文档结构的定制,满足各种结构的WORD的结构化数据提取。通过以模板为基准,提取WORD文档的数据,同时进行数据合规性的检查,为数据质量保证奠定基础。本方法实现的WORD文档结构提取的易用性好,可扩展性高,适用于各种需要将WORD文档结构化到数据库中的场合,对于减少人为错误出现的机率,提高数据质量,提升工作效率具有重要作用。
附图说明
图1为本发明WORD结构化提取流程图。
具体实施方式
下面结合附图和实施例对本发明作时一步详细说明。
如图1,基于可配置的WORD文档结构化提取的流程包括定制并加载模板配置文件,遍历模板树节点,解析各节点并按属性结构化内容。
以信息化项目建设的资料结构化为例子,信息化项目一般分为业务模型、需求分析、概要设计、详细设计四个阶段,每个阶段有几十个文档,四个阶段全部的文档加起来有几百个文档,每个文档的大小有十几M。如果这些文档全部由人工来进行录入的话,一是工作量大,二是由于文档大,人工录入的话出现错误的概率很大。以需求分析的文档为实例,来说明本发明的实施例子。
具体实施步骤如下:
步骤一、定制并加载模板配置文件。根据需求分析文档的结构,采用XML技术进行模板化,生成模板的配置文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国南方电网有限责任公司;云南云电同方科技有限公司;,未经中国南方电网有限责任公司;云南云电同方科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410492079.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据拖取的方法和装置
- 下一篇:一种面向微博的动态主题检测与演变追踪方法