[发明专利]一种基于Aspose技术的Word文档快速解析方法在审
申请号: | 202110705197.9 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113361256A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 李胜;周江伟 | 申请(专利权)人: | 上海真虹信息科技有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 符继超 |
地址: | 上海市奉贤区奉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 aspose 技术 word 文档 快速 解析 方法 | ||
本发明公开了一种基于Aspose技术的Word文档快速解析方法,包括以下步骤:S1、定义Word文档的信息结构;S2、调用Aspose库将Word文档导入至内存中;S3、在内存中解析Word文档内容。过基于Aspose技术将WORD文档中的所有内容加载到内存中,然后在内存中对WORD文档中的数据按章节结构进行分类解析,在内存中对WORD文档中的内容进行解析,使得解析效率最大化。
技术领域
本发明涉及文档解析技术领域,更具体的说是涉及一种基于Aspose技术的Word文档快速解析方法。
背景技术
目前,在国防军工领域,几乎所有的WORD文档都需要按照一定的格式规范进行编写,比如GJB438B、GJB2725A等格式规范。因此在编写完WORD文档后,往往需要对此WORD文档进行格式检查;传统的检查方法分为两种,一是人工检查,这种效率很低,而且正确率不高;另一种方法是通过软件进行自动化检查,这就需要能够对WORD文档进行解析。
但是,传统的对WORD文档解析方法主要是调用Microsoft Office自带的WORD解析库。Microsoft Office自带的WORD解析库虽然能够将WORD文档中的内容完整解析出来,但是解析处理效率非常低,在实际测试中解析100页左右的WORD文档中所有信息所需时间往往在10分钟以上
因此,通过基于Aspose技术将WORD文档中的所有内容加载到内存中,然后在内存中对WORD文档中的数据按章节结构进行分类解析是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于Aspose技术的Word文档快速解析方法;通过基于Aspose技术将WORD文档中的所有内容加载到内存中,然后在内存中对WORD文档中的数据按章节结构进行分类解析,在内存中对WORD文档中的内容进行解析,使得解析效率最大化。
为了实现上述目的,本发明采用如下技术方案:
一种基于Aspose技术的Word文档快速解析方法,包括以下步骤:
S1、定义Word文档的信息结构;
S2、调用Aspose库将Word文档导入至内存中;
S3、在内存中解析Word文档内容。
优选的,所述步骤S1具体包括:
S11、从Word文档中提取页眉页脚信息和章节信息;
S12、从章节信息中提取段落信息、表格信息、图片信息和子章节信息;
S13、从子章节信息中提取段落信息、表格信息、图片信息和子章节信息。
优选的,从所述表格信息中提取单元格信息,从所述单元格信息中提取段落信息,从所述图片信息中提取图片所属段落信息。
优选的,所述步骤S3具体包括:
S31、根据mDoc获取所有Node;
S32、获取Node对应的段落Paragraph;
S33、获取段落的大纲级别数值;
S34、根据大纲级别数值判断是否为标题,若是,则进行步骤S35,若否,则进行步骤S36;
S35、获取该段落的格式信息并添加到所属的父标题,完成后进行步骤S37;
S36、获取该段落的格式信息并添加到所属的标题对象中,完成后进行步骤S37;
S37、判断时候已遍历所有的Node,若是,则进行下一步,若否,则返回步骤S32;
S38、获取所有页眉和页脚的节点信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海真虹信息科技有限公司,未经上海真虹信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110705197.9/2.html,转载请声明来源钻瓜专利网。