[发明专利]一种对docx格式文档进行结构化解析方法及系统在审
申请号: | 201911184347.5 | 申请日: | 2019-11-27 |
公开(公告)号: | CN111062187A | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 刘磊;张琍;蔡娜;王旭初 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G06F40/12 | 分类号: | G06F40/12;G06F8/41 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种对docx格式文档进行结构化解析方法及系统,该方法包括将被改成ZIP后缀的文件进行解压;提取解压文件中的document.xml文件;对document.xml文件进行段落内容解析,得到段落文本内容;对document.xml文件进行表格解析;对document.xml文件进行图片解析;将段落文本内容、表格内容和图片按照在所述document.xml文件出现的顺序排版,得到完整docx格式文档。本发明能够根据XML格式文件即可解析成完整准确的docx格式文档。 | ||
搜索关键词: | 一种 docx 格式 文档 进行 结构 化解 方法 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201911184347.5/,转载请声明来源钻瓜专利网。