[发明专利]一种基于可配置的WORD文档结构化提取方法在审

专利信息
申请号: 201410492079.4 申请日: 2014-09-23
公开(公告)号: CN104199975A 公开(公告)日: 2014-12-10
发明(设计)人: 詹卫许;于晓义;董灿;吴方权;陈彬;胡俊杨;陈晓洪;李瑜 申请(专利权)人: 中国南方电网有限责任公司;云南云电同方科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 昆明大百科专利事务所 53106 代理人: 何健
地址: 510613 *** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 配置 word 文档 结构 提取 方法
【说明书】:

技术领域

发明涉及对WORD文档结构化提取的技术领域,具体涉及可配置方式的WORD文档结构化提取的计算机方法。

背景技术

现代信息化社会中,通过计算机来管理资料是所有企业都需要面对的问题。一个企业在信息化过程中,通常都是由文档管理到数据库管理的一个过程转换,怎样将积累的文档资源转化到数据库中,在提高效率的同时也要保证质量。如果采用人工的方式转换,对于成千上万的文档资料来说,难度是相当大的,而且人工转换的方式出现错误的概率也很大,数据质量也难于保障。如何通过一种计算机的数据提取方式,实现一种可动态配置文档目录结构的,将WORD文档通过结构化技术实现数据提取?在降低工作难度、提高工作效率的同时也保证数据转换的质量。

基于以上的这些原因,需要一个能够对WORD文档实现可配置的结构化提取的通用计算机方法,能够验证这些文档的合规性,并提取相应文档中的内容,实现文档数据的结构化。

发明内容

本发明正是为了解决WORD文档结构化提取的难题,提出一种基于可配置的WORD文档结构化提取方法,该方法具有便捷操作、方便使用的特点,同时能够验证文档的合规性,保障数据质量。

实现本发明的技术方案如下:

一种基于可配置的WORD文档结构化提取方法,步骤为:

步骤一、定义可配置的模板文件。在读取Word文档时,需要定义一个word模板文件,用来定义待读取文档的结构,和需要提取word的内容。模板文件需要定义的内容有:

1)、定制文档的结构,通过采用xml技术,定制文件的树型结构内容,通过XML结构实现可配置的定义文档的层级结构,每个层级作为配置文件的一个节点。节点的类型包括:标题、文本、表格、图片;

2)、配置节点的属性,根据各节点的实际业务需求,配置标题节点的属性,包括标题名、标题编号、是否为可循环出现的标题;

3)、定义模板节点的校验,或者读取的数据应该存放到数据库表的哪个字段中;

步骤二、根据第一步定义了模板文件为基准,检测待读取的Word文档。实现过程包含以下步骤:

1)、加载模板文件,并遍历其中的所有节点。根据XML定义出来的文档结构是一个树型结构,遍历过程中需要根据这个树型来遍历,及树型的深度遍历;

2)、根据当前的节点类型来进行不同的加载:

2.1 标题节点:根据模板节点中的标题号定位到具体的文档位置,如果不能定位则表示在模板中的标题没在文档中,同时根据这个节点的属性‘是否为可选’来判断是否需要输出日志信息;

2.2 文本节点:读取Word文档中对应的文本内容,并依据模板中的节点定义,把读取的数据保存到对应数据库表的字段中;

2.3 表格节点:根据模板中定义的表格列来验证,文档中对应的位置的表格是否符合模板定义,如果符合则读取数据并保存到数据库表的字段中;

2.4 图片节点:读取Word文档中对应的图片内容,并依据模板中的节点定义,把读取的数据保存到对应数据库表的字段中。

本发明的有益效果是:

本发明通过采用XML技术,解决了WORD文档目录结构可配置的问题,通过定制模板的不同类型节点及定义节点的属性,能够根据业务需求进行不同类型文档结构的定制,满足各种结构的WORD的结构化数据提取。通过以模板为基准,提取WORD文档的数据,同时进行数据合规性的检查,为数据质量保证奠定基础。本方法实现的WORD文档结构提取的易用性好,可扩展性高,适用于各种需要将WORD文档结构化到数据库中的场合,对于减少人为错误出现的机率,提高数据质量,提升工作效率具有重要作用。

附图说明

图1为本发明WORD结构化提取流程图。

具体实施方式

下面结合附图和实施例对本发明作时一步详细说明。

如图1,基于可配置的WORD文档结构化提取的流程包括定制并加载模板配置文件,遍历模板树节点,解析各节点并按属性结构化内容。

以信息化项目建设的资料结构化为例子,信息化项目一般分为业务模型、需求分析、概要设计、详细设计四个阶段,每个阶段有几十个文档,四个阶段全部的文档加起来有几百个文档,每个文档的大小有十几M。如果这些文档全部由人工来进行录入的话,一是工作量大,二是由于文档大,人工录入的话出现错误的概率很大。以需求分析的文档为实例,来说明本发明的实施例子。

具体实施步骤如下:

步骤一、定制并加载模板配置文件。根据需求分析文档的结构,采用XML技术进行模板化,生成模板的配置文件;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国南方电网有限责任公司;云南云电同方科技有限公司;,未经中国南方电网有限责任公司;云南云电同方科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410492079.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top