[发明专利]一种对docx格式文档进行结构化解析方法及系统在审
申请号: | 201911184347.5 | 申请日: | 2019-11-27 |
公开(公告)号: | CN111062187A | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 刘磊;张琍;蔡娜;王旭初 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G06F40/12 | 分类号: | G06F40/12;G06F8/41 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 docx 格式 文档 进行 结构 化解 方法 系统 | ||
1.一种对docx格式文档进行结构化解析方法,其特征在于,所述方法包括:
将被改成ZIP后缀的文件进行解压,得到解压文件;
提取所述解压文件中的document.xml文件;
对所述document.xml文件进行段落内容解析,得到段落文本内容;
和/或对所述document.xml文件进行表格解析,得到表格内容;
和/或对所述document.xml文件进行图片解析,得到图片;
将所述段落文本内容、所述表格内容和所述图片按照所述document.xml文件出现的顺序排版,得到完整docx格式文档。
2.根据权利要求1所述的对docx格式文档进行结构化解析方法,其特征在于,所述将被改成ZIP后缀的文件进行解压,得到解压文件,具体包括:
将扩展名为docx的文件改成ZIP后缀,得到被改成ZIP后缀的文件;
利用解压软件对被改成ZIP后缀的文件进行解压,得到解压文件。
3.根据权利要求1所述的对docx格式文档进行结构化解析方法,其特征在于,所述提取所述解压文件中的document.xml文件具体包括:
获取所述解压文件中word文件夹;
打开所述word文件夹找到document.xml文件;
提取所述word文件夹中的Media文件存储的图片。
4.根据权利要求1所述的对docx格式文档进行结构化解析方法,其特征在于,所述对document.xml文件进行段落内容解析,得到段落文本内容,具体包括:
利用正则表达式提取所述document.xml文件所有w:p的内容;
利用正则表达式在每一w:p的内容中提取所有w:t的内容;
将所述所有w:t的内容按照在所述document.xml文件出现的顺序拼接,得到段落文本内容。
5.根据权利要求1所述的对docx格式文档进行结构化解析方法,其特征在于,所述对所述document.xml文件进行表格解析,得到表格内容,具体包括:
利用正则表达式提取所述document.xml文件所有w:tbl的内容;
利用正则表达式在每一w:tbl的内容中提取所有w:tr的内容;
利用正则表达式在每一w:tr的内容中提取所有w:tc的内容,得到所有单元格;
利用正则表达式每一w:tc的内容中提取所有w:p的内容;
利用正则表达式在每一w:p的内容中提取所有w:t的内容,得到单元格内文本;
将所述单元格和所述单元格内文本按照在所述document.xml文件出现的顺序拼接,得到表格。
6.根据权利要求1所述的对docx格式文档进行结构化解析方法,其特征在于,所述对所述document.xml文件进行图片解析,得到图片,具体包括:
提取所述document.xml文件中所有a:blip r:embed=rId11的内容;
并获取rId11在document.xml.rels文件中的定义;
根据所述定义确定所述解压文件中media文件夹内的对应图片;
按照所述a:blip r:embed=rId11内容在所述document.xml文件中出现的位置排布确定的对应图片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911184347.5/1.html,转载请声明来源钻瓜专利网。