[发明专利]文档解析方法、装置、设备及存储介质在审
申请号: | 202010261296.8 | 申请日: | 2020-04-03 |
公开(公告)号: | CN111581948A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 张亦鹏;张真;刘明浩;姚荣洁;郭江亮 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/221 | 分类号: | G06F40/221;G06F40/143 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王艳斌 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 解析 方法 装置 设备 存储 介质 | ||
1.一种文档解析方法,其特征在于,包括:
接收文档解析请求,并根据所述文档解析请求下载对应的文档;
将所述文档转换为可扩展标记语言XML文件;
对转换后的XML文件进行解析以提取所述XML文件之中的文档内容,并以JS对象简谱JSON格式将提取的所述文档内容存储至数据库。
2.如权利要求1所述的文档解析方法,其特征在于,其中,
所述根据所述文档解析请求下载对应的文档,包括:
通过下载任务队列根据所述文档解析请求下载对应的文档,所述下载任务队列包括多个下载任务,每个所述下载任务调用对应的下载线程获取文档解析请求,并根据所述文档解析请求下载对应的文档;
所述将所述文档转换为可扩展标记语言XML文件,包括:
通过转换任务队列将所述文档转换为XML文件,所述转换任务队列包括多个转换任务,每个所述转换任务调用对应的转换线程将所述下载任务下载的文档转换为XML文件;
所述对转换后的XML文件进行解析以提取所述XML文件之中的文档内容,包括:
通过解析任务队列对所述转换后的XML文件进行解析以提取所述文档内容,所述解析任务队列包括多个解析任务,每个所述解析任务调用对应的转换线程对转换之后的XML文件进行解析。
3.如权利要求2所述的文档解析方法,其特征在于,还包括:
对所述下载任务队列之中的下载任务的状态进行监控;
当所述下载任务完成之后,根据所述下载任务在所述转换任务队列之中新增对应的转换任务。
4.如权利要求2所述的文档解析方法,其特征在于,还包括:
对所述转换任务队列之中的转换任务的状态进行监控;
当所述转换任务完成之后,根据所述转换任务在所述解析任务队列之中新增对应的解析任务。
5.如权利要求1所述的方法,其特征在于,所述文档为Word文档,其中,
所述将所述文档转换为XML文件,包括:
通过Libreoffice转换器将所述文档转换为XML文件;
所述对转换后的XML文件进行解析以提取所述XML文件之中的文档内容,包括:
通过ElementTree解析器对转换后的XML文件进行解析以提取所述XML文件之中的文档内容。
6.如权利要求5所述的方法,其特征在于,通过分布式任务队列管理工具对所述下载任务队列、所述转换任务队列和所述解析任务队列进行管理,其中,所述分布式任务队列管理工具、所述Libreoffice转换器和所述ElementTree解析器加载在Docker容器引擎之中。
7.如权利要求1所述的方法,其特征在于,所述数据库具有互斥锁,当所述互斥锁被当前任务抢占时,所述数据库对其他任务禁止读/写。
8.如权利要求2所述的方法,其特征在于,所述转换任务的数量大于所述下载任务的数量和所述解析任务的数量。
9.一种文档解析装置,其特征在于,包括:
组件容器,所述组件容器包括解析请求接收接口;
设置在所述组件容器之中的数据库组件;
设置在所述组件容器之中的文档下载组件,用于根据所述解析请求接收接口接收的文档解析请求下载对应的文档;
设置在所述组件容器之中的文档转换组件,用于将所述文档转换为可扩展标记语言XML文件;
设置在所述组件容器之中的文档解析组件,用于对转换之后的XML文件进行解析以提取所述XML文件之中的文档内容,并以JS对象简谱JSON格式将提取的所述文档内容存储至所述数据库组件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010261296.8/1.html,转载请声明来源钻瓜专利网。