[发明专利]文档处理方法及其装置、电子设备、计算机可读存储介质在审
申请号: | 202111396605.3 | 申请日: | 2021-11-23 |
公开(公告)号: | CN114065719A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 赵磬;穆翠;夏翠翠;黄荣清 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/205 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 黄海英 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 处理 方法 及其 装置 电子设备 计算机 可读 存储 介质 | ||
1.一种文档处理方法,其特征在于,包括:
导入待分析的目标文档;
基于预设文档模板的模板格式,扫描导入的所述目标文档的文档内容;
依据预设解析条件,区分文档内容中的文档章节,得到结构化数据。
2.根据权利要求1所述的处理方法,其特征在于,基于预设文档模板的模板格式,扫描导入的所述目标文档的文档内容的步骤,包括:
基于预设文档模板的模板格式,查询所述目标文档中的关键词,以得到所述目标文档的文档内容。
3.根据权利要求1所述的处理方法,其特征在于,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据的步骤,包括:
采用预设解析条件中的第一子解析条件,分割所述文档内容中的每个段落;
确定每个所述段落所属大纲的大纲等级;
将所述段落所属大纲的大纲等级表征为结构化数据。
4.根据权利要求3所述的处理方法,其特征在于,在确定每个所述段落所属大纲的大纲等级之后,还包括:
基于所述段落所属大纲的大纲等级,采用预设递归算法将段落等级赋予结构化数据,以使段落的层次等级与所述目标文档一致。
5.根据权利要求1所述的处理方法,其特征在于,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据的步骤,包括:
采用预设解析条件中的第二子解析条件,获取所述文档内容中各段落中存在表格对象的句柄及表格数;
基于所述文档内容中的表格对象的句柄及表格数,循环调用表格对象,将每两个表格对象之间的段落进行分割,得到所述目标文档的文档内容;
对所述表格对象中的表格内容进行解析,得到结构化的表格数据。
6.根据权利要求5所述的处理方法,其特征在于,对所述表格对象中的表格内容进行解析,得到结构化的表格数据的步骤,包括:
对所述表格对象中的字段定义表进行解析,得到凭证格式数据或报表表样;和/或,
对所述表格对象中的业务处理流程表进行分析,得到业务字段数据。
7.根据权利要求1所述的处理方法,其特征在于,还包括:
采用预设处理控件,将所述文档内容中的文本对象、文档附件或者图片对象复制至剪贴板;
调用所述预设处理控件,将所述剪贴板中的文本对象、文档附件或者图片对象另存至临时目录的指定文件。
8.一种文档处理装置,其特征在于,包括:
导入单元,用于导入待分析的目标文档;
扫描单元,用于基于预设文档模板的模板格式,扫描导入的所述目标文档的文档内容;
区分单元,用于依据预设解析条件,区分文档内容中的文档章节,得到结构化数据。
9.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的文档处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的文档处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111396605.3/1.html,转载请声明来源钻瓜专利网。