[发明专利]一种对docx格式文档进行结构化解析方法及系统在审
申请号: | 201911184347.5 | 申请日: | 2019-11-27 |
公开(公告)号: | CN111062187A | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 刘磊;张琍;蔡娜;王旭初 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G06F40/12 | 分类号: | G06F40/12;G06F8/41 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 docx 格式 文档 进行 结构 化解 方法 系统 | ||
本发明公开了一种对docx格式文档进行结构化解析方法及系统,该方法包括将被改成ZIP后缀的文件进行解压;提取解压文件中的document.xml文件;对document.xml文件进行段落内容解析,得到段落文本内容;对document.xml文件进行表格解析;对document.xml文件进行图片解析;将段落文本内容、表格内容和图片按照在所述document.xml文件出现的顺序排版,得到完整docx格式文档。本发明能够根据XML格式文件即可解析成完整准确的docx格式文档。
技术领域
本发明涉及文档解析技术领域,特别是涉及一种对docx格式文档进行结构化解析方法及系统。
背景技术
docx格式的文档是Microsoft Office2007版本之后使用的文档格式,用新的基于XML的压缩文件格式取代了其目前专有的默认文件格式,在传统的文件名扩展名后面添加了字母“x”(即“.docx”取代“.doc”、“.xlsx”取代“.xls”、“.pptx”取代“.ppt”)。
docx格式文件的主要内容是保存为XML格式的,但文件并非直接保存于磁盘。它是保存在一个ZIP文件中,然后取扩展名为docx。而在现有技术中并没有能够解析还原该docx格式文件相关技术方案,也就不能准确的得到完整的docx格式文件,因此,对docx格式文档进行完整解析成为本领域亟待解决的问题。
发明内容
本发明的目的是提供一种对docx格式文档进行结构化解析方法及系统,以能够根据XML格式文件即可解析成完整准确的docx格式文档。
为实现上述目的,本发明提供了一种对docx格式文档进行结构化解析方法,所述方法包括:
将被改成ZIP后缀的文件进行解压,得到解压文件;
提取所述解压文件中的document.xml文件;
对所述document.xml文件进行段落内容解析,得到段落文本内容;
和/或对所述document.xml文件进行表格解析,得到表格内容;
和/或对所述document.xml文件进行图片解析,得到图片;
将所述段落文本内容、所述表格内容和所述图片按照在所述document.xml文件出现的顺序排版,得到完整docx格式文档。
可选的,所述将被改成ZIP后缀的文件进行解压,得到解压文件,具体包括:
将扩展名为docx的文件改成ZIP后缀,得到被改成ZIP后缀的文件;
利用解压软件对被改成ZIP后缀的文件进行解压,得到解压文件。
可选的,所述提取所述解压文件中的document.xml文件具体包括:
获取所述解压文件中word文件夹;
打开所述word文件夹找到document.xml文件;
提取所述word文件夹中的Media文件存储的图片。
可选的,所述对document.xml文件进行段落内容解析,得到段落文本内容,具体包括:
利用正则表达式提取所述document.xml文件所有w:p的内容;
利用正则表达式在每一w:p的内容中提取所有w:t的内容;
将所述所有w:t的内容按照在所述document.xml文件出现的顺序拼接,得到段落文本内容。
可选的,所述对所述document.xml文件进行表格解析,得到表格内容,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911184347.5/2.html,转载请声明来源钻瓜专利网。