[发明专利]一种基于可配置的WORD文档结构化提取方法在审
申请号: | 201410492079.4 | 申请日: | 2014-09-23 |
公开(公告)号: | CN104199975A | 公开(公告)日: | 2014-12-10 |
发明(设计)人: | 詹卫许;于晓义;董灿;吴方权;陈彬;胡俊杨;陈晓洪;李瑜 | 申请(专利权)人: | 中国南方电网有限责任公司;云南云电同方科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 昆明大百科专利事务所 53106 | 代理人: | 何健 |
地址: | 510613 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于可配置的WORD文档结构化提取方法,包括以下步骤:步骤一,定义可配置的模板文件;在读取Word文档时,需要定义一个word模板文件,用来定义待读取文档的结构和需要提取word的内容;步骤二,根据第一步定义的模板文件为基准,检测待读取的Word文档。本发明实现的WORD文档结构提取的易用性好,可扩展性高,适用于各种需要将WORD文档结构化到数据库中的场合,对于减少人为错误出现的机率,提高数据质量,提升工作效率具有重要作用。 | ||
搜索关键词: | 一种 基于 配置 word 文档 结构 提取 方法 | ||
【主权项】:
一种基于可配置的WORD文档结构化提取方法,其特征在于,包括以下步骤:步骤一,定义可配置的模板文件;在读取Word文档时,需要定义一个word模板文件,用来定义待读取文档的结构和需要提取word的内容;模板文件需要定义的内容有:1)、定制文档的结构,通过采用xml技术,定制文件的树型结构内容,通过XML结构实现可配置的定义文档的层级结构,每个层级作为配置文件的一个节点;节点的类型包括:标题、文本、表格、图片;2)、配置节点的属性,根据各节点的实际业务需求,配置标题节点的属性,包括标题名、标题编号、是否为可循环出现的标题;3)、定义模板节点的校验或者读取的数据应该存放到数据库表的哪个字段中;步骤二,根据第一步定义的模板文件为基准,检测待读取的Word文档;实现过程包含以下步骤:1)、加载模板文件,并遍历其中的所有节点;根据XML定义出来的文档结构是一个树型结构,遍历过程中需要根据这个树型来遍历,及树型的深度遍历;2)、根据当前的节点类型来进行不同的加载:2.1) 标题节点:根据模板节点中的标题号定位到具体的文档位置,如果不能定位则表示在模板中的标题没在文档中,同时根据这个节点的属性‘是否为可选’来判断是否需要输出日志信息;2.2) 文本节点:读取Word文档中对应的文本内容,并依据模板中的节点定义,把读取的数据保存到对应数据库表的字段中;2.3) 表格节点:根据模板中定义的表格列来验证,文档中对应的位置的表格是否符合模板定义,如果符合则读取数据并保存到数据库表的字段中;2.4)图片节点:读取Word文档中对应的图片内容,并依据模板中的节点定义,把读取的数据保存到对应数据库表的字段中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国南方电网有限责任公司;云南云电同方科技有限公司;,未经中国南方电网有限责任公司;云南云电同方科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410492079.4/,转载请声明来源钻瓜专利网。
- 上一篇:数据拖取的方法和装置
- 下一篇:一种面向微博的动态主题检测与演变追踪方法