[发明专利]文档解析方法、装置、设备及存储介质在审
申请号: | 202010261296.8 | 申请日: | 2020-04-03 |
公开(公告)号: | CN111581948A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 张亦鹏;张真;刘明浩;姚荣洁;郭江亮 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/221 | 分类号: | G06F40/221;G06F40/143 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王艳斌 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 解析 方法 装置 设备 存储 介质 | ||
本申请提出了一种文档解析方法、装置、设备及存储介质,涉及文档解析技术领域,具体实现方案为:接收文档解析请求,并根据文档解析请求下载对应的文档;将文档转换为可扩展标记语言XML文件;对转换后的XML文件进行解析以提取XML文件之中的文档内容,并以JS对象简谱JSON格式将提取的文档内容存储至数据库。根据本申请实施例的文档解析方法,能够提高文档解析效率。
技术领域
本申请涉及计算机技术领域,尤其涉及文档解析技术领域,提出一种文档解析方法、装置、设备及存储介质。
背景技术
目前,各类文档格式在日常工作生活中被广泛使用。文档解析作为一种常见的文档处理方式,能够为文档内容抽取任务完成前置工作。
相关技术中,通过Apache POI工具实现文档解析,在批量解析文档时,该方案的文档解析效率仍有待提高。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请提出一种文档解析方法、装置、设备及存储介质,以提高文档解析效率。
根据本申请第一方面实施例提出了一种文档解析方法,包括:
接收文档解析请求,并根据所述文档解析请求下载对应的文档。
将所述文档转换为可扩展标记语言XML文件。
对转换后的XML文件进行解析以提取所述XML文件之中的文档内容,并以JS对象简谱JSON格式将提取的所述文档内容存储至数据库。
本申请实施例的文档解析方法,通过将文档转换为XML文件,在批量文档解析场景下快速获取文档对应的XML文件,进而对转换后的XML文件进行解析以提取XML文件之中的文档内容,实现了XML文件的高效解析,提高文档解析效率。以JSON格式将提取的文档内容存储至数据库,便于应用于机器学习模型训练。
根据本申请第二方面实施例提出了一种文档解析装置,包括:
组件容器,所述组件容器包括解析请求接收接口;
设置在所述组件容器之中的数据库组件;
设置在所述组件容器之中的文档下载组件,用于根据所述解析请求接收接口接收的文档解析请求下载对应的文档;
设置在所述组件容器之中的文档转换组件,用于将所述文档转换为可扩展标记语言XML文件;
设置在所述组件容器之中的文档解析组件,用于对转换之后的XML文件进行解析以提取所述XML文件之中的文档内容,并以JS对象简谱JSON格式将提取的所述文档内容存储至所述数据库组件。
本申请实施例的文档解析装置,包括:组件容器,设置在所组件容器之中的数据库组件、文档下载组件、文档转换组件、文档解析组件,组件容器包括解析请求接收接口。本实施例中,文档下载组件根据解析请求接收接口接收的文档解析请求下载对应的文档,文档转换组件将文档转换为XML文件,在批量文档解析场景下快速获取文档对应的XML文件,文档解析组件对转换之后的XML文件进行解析以提取XML文件之中的文档内容,实现了XML文件的高效解析,并以JSON格式将提取的文档内容存储至数据库组件,便于应用于机器学习模型训练。由此,提高了文档解析效率。
根据本申请第三方面实施例提出了一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面实施例所述的文档解析方法。
本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如第一方面实施例所述的文档解析方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010261296.8/2.html,转载请声明来源钻瓜专利网。