[发明专利]一种表格识别方法及终端有效
申请号: | 201811515989.4 | 申请日: | 2018-12-12 |
公开(公告)号: | CN109635729B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 郭国强;周文贵 | 申请(专利权)人: | 厦门商集网络科技有限责任公司 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V20/62;G06V10/44 |
代理公司: | 福州科扬专利事务所(普通合伙) 35001 | 代理人: | 何小星 |
地址: | 361000 福建省厦*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表格 识别 方法 终端 | ||
本发明涉及一种表格识别方法及终端,属于数据处理领域。本发明通过S1、扫描一纸质表格,转换得到一电子档表格并输出;S2、为所述一电子档表格中的每一单元格设置编号;S3、调用OCR识别引擎识别其中一个单元格中的文字,得到识别结果;S4、根据所述识别结果和所述一个单元格的编号生成一结构化数据;所述结构化数据包含两个键值对,一键值对的key为单元格编号,value为与所述一个单元格对应的编号;另一键值对的key为单元格内容,value为所述识别结果;S5、重复执行S3至S4,直至所有单元格均被遍历。实现了将纸质表格转化为结构化数据。
技术领域
本发明涉及一种表格识别方法及终端,属于数据处理领域。
背景技术
申请号为201710813108.6的专利文献提供一种表格识别方法、识别系统、计算机装置及计算机可读存储介质,表格识别方法包括:建立深度学习模型;获取表格图片,将表格图片横向切割为多个横向图片;通过深度学习模型,识别每个横向图片是否包含直线,获取包含直线的横向图片;纵向切割包含直线的横向图片,得到多个区块;根据多个区块组成表格,定位表格内文字并识别文字内容。通过利用建立好的深度学习模型进行表格的识别,提高了表格识别的效率以及准确率。
但是,上述专利文献提供的表格识别方法得到的识别结果是非结构化数据,具体表现为一个个不知其具体含义的文字,无法将识别结果应用于具体的业务场景中。
发明内容
本发明所要解决的技术问题是:如何将纸质表格转化为结构化数据。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种表格识别方法,包括:
S1、扫描一纸质表格,转换得到一电子档表格并输出;
S2、为所述一电子档表格中的每一单元格设置编号;
S3、调用OCR识别引擎识别其中一个单元格中的文字,得到识别结果;
S4、根据所述识别结果和所述一个单元格的编号生成一结构化数据;所述结构化数据包含两个键值对,一键值对的key为单元格编号,value为与所述一个单元格对应的编号;另一键值对的key为单元格内容,value为所述识别结果;
S5、重复执行S3至S4,直至所有单元格均被遍历。
本发明还提供一种表格识别终端,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
S1、扫描一纸质表格,转换得到一电子档表格并输出;
S2、为所述一电子档表格中的每一单元格设置编号;
S3、调用OCR识别引擎识别其中一个单元格中的文字,得到识别结果;
S4、根据所述识别结果和所述一个单元格的编号生成一结构化数据;所述结构化数据包含两个键值对,一键值对的key为单元格编号,value为与所述一个单元格对应的编号;另一键值对的key为单元格内容,value为所述识别结果;
S5、重复执行S3至S4,直至所有单元格均被遍历。
本发明具有如下有益效果:本发明通过将扫描纸质表格得到的电子档表格中的每一单元格进行编号,并逐一识别每一单元格的内容,从而将单元格编号与单元格内容一一对应,得到结构化数据。区别于现有技术,表格识别结果为不知具体含义的非结构化数据,工作人员难以根据识别结果进行进一步的业务操作,而本发明提供的方法所得到的识别结果为结构化数据,在具体的业务场景中,工作人员可根据单元格编号调用、采集、统计与业务逻辑关联的具体数据,充分利用了表格识别的结果,为工作人员进一步对纸质表格呈现的数据进行分析提供了极大地便利。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门商集网络科技有限责任公司,未经厦门商集网络科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811515989.4/2.html,转载请声明来源钻瓜专利网。