[发明专利]多类别文本检测系统和基于该系统的票据表单检测方法有效
申请号: | 202010331934.9 | 申请日: | 2020-04-24 |
公开(公告)号: | CN111738055B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 魏金岭;王剑强;丁续旭;孙怡;王昌胜;魏弋力 | 申请(专利权)人: | 浙江大学城市学院;杭州盈兰信息科技有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/414;G06V30/19;G06V10/80;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 杭州宇信知识产权代理事务所(普通合伙) 33231 | 代理人: | 王健 |
地址: | 310015 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 类别 文本 检测 系统 基于 票据 表单 方法 | ||
本发明提供了一种票据表单检测方法,包括如下步骤:将经过预处理的票据表单图片输入所述多类别文本检测系统中,分别生成中心点图、类别图和距离图;基于极值点检测方法在所述中心点图中寻找中心点,从而确定语义独立的字段的位置;基于寻找到的中心点,在所述距离图中确定各个语义独立字段的尺寸,从而确定候选框;基于所述候选框,在所述类别图中采用投票机制确定该候选框的类别。本发明相比现有技术具有如下有益效果:基于中心点检测的思路,可以避免使用非极大值抑制(NMS)的后处理,从而简化流程,预测流程简单,速度快,检测准确率高且鲁棒性好。
技术领域
本发明涉及智能检测技术领域,具体涉及一种多类别文本检测系统和基于该系统的票据表单检测方法。
背景技术
文本识别是一个历史悠久的问题,随着深度学习的兴起,多数相关任务已经被很好地解决。然而有一类特殊的数据,其文本是根据语义信息有机的组合在一起,称之为票据表单样数据,需要从视觉以及语义的层面将需要的信息提取出来。
票据以及表单样数据在日常生活中扮演了重要的角色,作为会计原始凭证之一,是记录经济活动内容的载体,也是财务管理的重要工具。表单样数据种类繁多,形式各异,大致可以分为票据类数据和表格类数据。对于票据类数据,最常见的如增值税发票、出租车票、购买凭证等,这一类数据具有一定的模板,但不同类别的票据模板差异大;而对于表格类数据,如销售统计表、购货清单等,完全没有模板可言,需要依靠高层的语义信息进行关键信息定位。
对于基于图像的文本检测模型,图像中的内容有两个维度:一个是文本的位置和内容信息,另一个是语义信息,需要根据位置及内容判断。针对票据的检测可以看作是物体检测与自然场景文本检测的综合,也就是既需要检测出自然词条的位置,还需要知道其代表的含义。传统的计算机视觉方法如直线检测、边缘检测、滑动窗口等可以从第一个维度部分的解决这个问题,当涉及复杂场景,需要引入以卷积神经网络为核心模块的深度学习方法。
深度学习之前,文字检测主要依靠人工设计特征,如利用连通区域分析(CCA)或利用滑动窗口以及聚类方法分割字段。MSER是一种经典的连通域分析检测算子,思想源于分水岭算法,即寻找灰度图像中的最大稳定极值区域,再通过非极大值抑制(NMS)去掉重复的文本框,其优势在于可以快速粗略的找到文字可能的区域。基于滑动窗口的方法中,不同尺寸的窗口滑过输入图片,然后将滑过部分分类为前景或背景,再利用条件随机场或马尔科夫聚类等图方法得到字段区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学城市学院;杭州盈兰信息科技有限公司,未经浙江大学城市学院;杭州盈兰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010331934.9/2.html,转载请声明来源钻瓜专利网。