[发明专利]基于python完成word表格转秩的方法及系统在审
申请号: | 202210972520.3 | 申请日: | 2022-08-15 |
公开(公告)号: | CN115358197A | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 王正沛;崔乐乐;李抑允 | 申请(专利权)人: | 天元大数据信用管理有限公司 |
主分类号: | G06F40/18 | 分类号: | G06F40/18;G06F40/186 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
地址: | 250100 山东省济南市高新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 python 完成 word 表格 方法 系统 | ||
本发明公开了基于python完成word表格转秩的方法及系统,属于数据处理技术领域,本发明要解决的技术问题为如何将电子版word表格批量转秩成横向excel记录行并进行汇总,提高信息收集的效率,同时提高信息处理的准确性,采用的技术方案为:该方法是基于SpringBoot框架,采用java+python语言编写,并采用mysql作为数据库,同时采用mybatis作为数据库交互;再基于VUE构建前端页面进行交互,实现文件上传及目标表的生成和下载;并调用python进行word表格的数据抽取并生成excel表,保证数据处理的效率。
技术领域
本发明涉及数据处理技术领域,具体地说是一种基于python完成word表格转秩的方法及系统。
背景技术
在日常的信息处理中,经常需要利用word表格作为信息收集的格式,当前很多的信息收集是通过word表格采集的(电子版或纸质版)。针对电子版的word表格及纸质版的word扫描件,在数据汇总处理方面又存在诸多的不便,目前主要采取人工的方式汇总成excel表格进行处理,效率低且容易出错。
故如何将电子版word表格批量转秩成横向excel记录行并进行汇总,提高信息收集的效率,同时提高信息处理的准确性是目前亟待解决的技术问题。
发明内容
本发明的技术任务是提供一种基于python完成word表格转秩的方法及系统,来解决如何将电子版word表格批量转秩成横向excel记录行并进行汇总,提高信息收集的效率,同时提高信息处理的准确性的问题。
本发明的技术任务是按以下方式实现的,一种基于python完成word表格转秩的方法,该方法是基于SpringBoot框架,采用java+python语言编写,并采用mysql作为数据库,同时采用mybatis作为数据库交互;再基于VUE构建前端页面进行交互,实现文件上传及目标表的生成和下载;并调用python进行word表格的数据抽取并生成excel表,保证数据处理的效率。
作为优选,该方法具体如下:
S1、判断是否输入模板:
①、若是,则提取模板字段,下一步执行步骤S2;
②、若否,则跳转至步骤S2;
S2、识别所有目标word表格文档;
S3、统一文件格式为docx;
S4、比对字段值及数量,排除非模板模式文档;
S5、判断是否存有模板字段:
①、若是,则排除模板字段,下一步执行步骤S6;
②、若否,则跳转至步骤S6;
S6、将word表格文档字段导出成excel;
S7、调整字段。
更优地,通过前端页面交互,设定word表格中哪些字段为字段名以及哪些字段为字段值,减少了对生成数据的处理。
更优地,设定word表格中哪些字段为字段名以及哪些字段为字段值具体如下:
对导入的word表格模板的字段进行提取,作为预制字段名;
在后续word表格提取的字段中自动过滤掉字段名,只将字段值汇总成excel表格,最大程度上简化了对生成表格的后期处理。
更优地,字段名的确认方式是通过上传空白模板,并自动过滤掉批量word表格文档中的字段名,并将字段值进行汇总。
更优地,word表格进行数据处理时,选择对word表格进行无差别识别,将word表格中的所有字段均对应生成在excel表中,并进行调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天元大数据信用管理有限公司,未经天元大数据信用管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210972520.3/2.html,转载请声明来源钻瓜专利网。